上期我们实现了通过R329开发板的摄像头捕获视频的功能。本期我们更进一步,看看通过AIPU如何将捕获的视频送入分类模型,并实时给出分类结果。
操作方法
官方给了一个编译好的zhouyi_cam测试程序,用run.sh就可以调用。
首先把zhouyi_test.tar.xz传输到开发板上,用tar xf zhouyi_test.tar.xz解压缩得到zhouyi_test目录。
给里面的run.sh文件加上可执行权限。
执行./run.sh,或者直接执行./zhouyi_cam aipu.bin unsigned启动分类测试程序。
程序会不断刷新摄像头采集到的图像,并对图片进行预处理,送分类模型,获取并解码分类结果的操作,实时输出到终端上。
分类结果
小液晶屏上也会实时显示采集到的图像和对应的分类结果。
从网上随意找了几张图作为被测物体,通过高分辨率大屏显示。
模型都分类正确了。
一个相对不常见的彩色键盘,拍摄局部就能正确识别成computer keyboard。
喵星人,识别成perslan cat(波斯猫),cat是肯定对了,专家们可以看看品种识别对了吗。
故意刁难一下模型,拍一个它不认识的物体,分类错了。
这是一个常见的科学计算器,拍的倒是挺清楚的。模型可能没见过这个,识别成了modem(调制解调器),错的很离谱。
小结
在R329上运行现成的模型还是挺方便的,效果也不错,实时视频分类能有约20fps的帧率。这次测试也体现了现有神经网络的特点:
(1)只要训过的类别,可以以非常高的准确率识别出来。完全不输人类(猫的那张图,估计不是每个人类都能轻松指出品种的)
(2)没训过的类别,可能会错的很离谱。
本帖最后由 x1816 于 2021-9-21 00:10 编辑
引用: Jacktang 发表于 2021-9-22 08:50 训过识别的准确率还是挺高的 这个训的基本原理是有什么特殊优缺点呢
训练需要采集对应类别的数据,例如前面的keyboard能正确识别的,是因为模型已经见过不同类型的键盘的图片了,并且知道它属于keyboard这个类别。
计算器没见过,可能类别都没有,模型的结果就错的比较离谱了。
这和人类还是有很大差别,人类见到不认识的类别,会有“不认识” “不确定它是什么”的概念,目前的模型是没有的。