历史上的今天
返回首页

历史上的今天

今天是:2025年03月28日(星期五)

正在发生

2018年03月28日 | 嵌入式神经网络赋予机器视觉、听觉和分析能力

2018-03-28 来源:集微网

Youval Nachum,音频与语音产品线高级产品经理,CEVA


人工智能(AI)潜在的应用与日俱增。不同的神经网络(NN)经过测试、调整和改进,解决了不同的问题。出现了使用AI优化数据分析的各种方法。今天大部分的AI应用,比如谷歌翻译和亚马逊Alexa语音识别和视觉识别系统,还在利用云的力量。通过依赖一直在线的互联网连接,高带宽链接和网络服务,物联网产品和智能手机应用也可以集成AI功能。到目前为止,大部分注意力都集中在基于视觉的人工智能上,一部分原因是它容易出现在新闻报道和视频中,另一部分原因是它更类似于人类的活动。


声音和视觉神经网络(图片来源于:CEVA)


在图像识别中,对一个2D图像进行分析(一次处理一组像素),通过神经网络的连续层识别更大的特征点。最开始检测到的边缘是具有高差异性的部位。以人脸为例,最早识别的边缘是在眼睛、鼻子和嘴巴这些特征周边。随着检测过程在神经网络中的深入,将会检测到整个面部的特征。


在最后阶段,结合特征和位置信息,就能在可用的数据库中识别到具有最大匹配度的一个特定的人脸。

 

神经网络的特征提取(图片来源于:CEVA)


相机拍摄或捕捉的物体,可以通过神经网络在其数据库找到具有最高匹配概率的人脸。尤其好的是物体不需要在完全相同的角度或位置,或者是相同的光线条件下进行拍摄。


AI这么快就流行起来,在很大程度上是因为开放的软件工具(也称为框架),使得构建和训练一个神经网络实现目标应用程序变得容易起来,即使是使用各种不同的编程语言。两个常见的通用框架是TensorFlow和Caffe。对于已知的识别目标,可以离线定义和训练一个神经网络。一旦训练完成,神经网络可以很容易地部署到嵌入式平台上。这是一个聪明的划分,允许借助PC或云的能力训练神经网络,而功耗敏感的嵌入式处理器只需使用训练好的数据来进行识别。


类人的识别人和物体的能力与流行的应用密切相关,比如工业机器人和自动驾驶汽车。


然而,人工智能在音频领域具备同样的兴趣点和能力。采用和图像特征分析同样的方式,可以将音频分解成特征点来输入给神经网络。有一种方法是使用梅尔频率倒谱系数(MFCC)将音频分解成有用的特征。最开始音频样本被分解成短时间的帧,例如20 ms,然后对信号进行傅里叶变换,使用重叠三角窗将音频频谱的功率映射到一个非线性尺度上。


声音神经网络分解图(图片来源于:CEVA)


通过提取的特征,神经网络可以用来确定音频样本和音频样本数据库中词汇或者语音的相似度。和图像识别一样,神经网络为特定词汇在数据库中提取了可能的匹配。对于那些想要复制谷歌和亚马逊的“OK Google”或“Alexa”语音触发(VT)功能的人来说,KITT.AI通过Snowboy提供了一个解决方案。触发关键词可以上传到他们的平台进行分析,导出一个文件,集成到嵌入式平台上的Snowboy应用程序中,这样语音触发(VT)的关键词在离线情况下也可以被检测到。音频识别也并不局限于语言识别。TensorFlow提供了一个iOS上的示例工程,可以区分男性和女性的声音。


另一个应用程序是检测我们居住的城市和住宅周围动物和其它声音。这已经由安装在英国伊丽莎白女王奥林匹克公园的深度学习蝙蝠监控系统验证过了。它提供了将视觉和听觉识别神经网络集成到一个平台的可能性。比如通过音频识别特定的声音,可以用来触发安全系统进行录像。


有很多基于云的AI应用程序是不现实的,一方面有数据隐私问题,另一方面由于数据连通性差或带宽不够造成的服务不能持续。另外,实时性能也是一个值得关注的问题。例如工业制造系统需求一个瞬时响应,以实时操作生产线,连接云服务的延时就太长了。


因此,将AI功能移动到终端设备越来越受到关注。也就是说,在正在使用的设备上发挥人工智能的力量。很多IP供应商提供了解决方案,比如CEVA的CEVA-X2和NeuPro IP核和配套软件,很容易和现有的神经网络框架进行集成。它为开发具备人工智能的嵌入式系统提供了可能性,同时提供了低功耗处理器的灵活性。以一个语音识别系统作为例子,可以利用集成在芯片上的功耗优化的人工智能,来识别一个语音触发(VT)的关键词和一个最小的语音命令(VC)的集合。更复杂的语音命令和功能,可以在应用程序从低功耗的语音触发状态下唤醒之后,由基于云的AI完成。


最后,卷积神经网络(CNN)也可以用来提高文本到语音(TTS)系统的质量。一直以来TTS是将来自同一个配音员的许多小块的高质量录音,整合成连续的声音。虽然所输出的结果是人类可以理解的,但由于输出结果存在奇怪的语调和音调,仍然感觉像是机器人的声音。如果试图表现不同的情绪则需要一组全新的录音。谷歌的WaveNet改善了当前的情况,通过卷积神经网络(CNN)以每秒16000个采样生成TTS波形。与之前的声音样本相比,其输出结果是无缝连接的,明显更自然更高质量的声音。

推荐阅读

史海拾趣

Bharat Electronics Ltd公司的发展小趣事

随着市场的不断变化和竞争的加剧,BEL并未满足于现状,而是积极寻求多元化发展。公司不仅拓展了原有的军事电子领域,还涉足电信、运算、公共运输和广播等多个行业。同时,BEL还积极拓展全球市场,将产品出口到多个国家和地区,实现了从区域性企业向全球性企业的跨越。

BAE Systems公司的发展小趣事

BAE Systems公司的前身可以追溯到多个历史悠久的英国航空与电子企业。1910年成立的布里斯托飞机公司、1918年成立的英格兰电子公司,以及1927年成立的Vickers-Armstrongs,这些企业在各自的领域内都取得了显著的成就。到了1960年,这些企业经过整合,形成了英国飞机公司,这标志着英国航空与电子工业的一次重要合并。这一整合不仅增强了英国在航空领域的实力,也为后来的BAE Systems公司打下了坚实的基础。

Bomar Interconnect公司的发展小趣事

随着产品线的不断丰富和技术实力的提升,Bomar Interconnect公司开始积极拓展国内外市场。公司通过参加各类行业展会、举办技术研讨会等方式,加强与客户的沟通与合作。同时,公司还注重品牌建设,通过提升产品质量、优化客户服务等举措,树立了良好的企业形象。这些努力不仅帮助公司赢得了更多客户的信任和支持,也为公司的长远发展奠定了坚实基础。

Curtis Electromusic Specialties Inc公司的发展小趣事

人才是企业发展的核心驱动力。CUI公司深知这一点,因此一直注重人才培养和引进。公司建立了完善的人才培养和激励机制,为员工提供了广阔的发展空间和良好的职业前景。同时,公司还积极与高校和研究机构合作,引进高层次人才和技术成果,为公司的创新发展提供了强大的智力支持。

以上五个故事框架只是基于电子行业CUI公司可能的发展路径和趋势的构想,并不特指任何具体的公司或事件。在实际情况中,每个公司的发展故事都是独一无二的,受到多种因素的影响和塑造。

Holy Stone公司的发展小趣事

1999年,Holy Stone在台湾桃园龙潭设立了生产基地,开始自主生产积层陶瓷电容(MLCC)。这一举措标志着公司从单纯的代理商向集研发、生产、销售于一体的多元化企业转型。同年,公司创立了自有品牌“HEC”,并以该品牌推出了一系列多元客制化产品,行销全球。这些产品凭借其高品质和满足客户全方位需求的特点,赢得了客户的广泛信赖,进一步巩固了公司在电子元件市场的地位。

富满电子(FM)公司的发展小趣事

1999年,Holy Stone在台湾桃园龙潭设立了生产基地,开始自主生产积层陶瓷电容(MLCC)。这一举措标志着公司从单纯的代理商向集研发、生产、销售于一体的多元化企业转型。同年,公司创立了自有品牌“HEC”,并以该品牌推出了一系列多元客制化产品,行销全球。这些产品凭借其高品质和满足客户全方位需求的特点,赢得了客户的广泛信赖,进一步巩固了公司在电子元件市场的地位。

问答坊 | AI 解惑

2009国赛比赛实施过程及比赛守则(官网上下的)

本帖最后由 paulhyde 于 2014-9-15 09:44 编辑  …

查看全部问答>

大家使用lpc2132注意的一点

关于__irq 的使用 __irq为一个标识,用来表示一个函数是否为中断函数。对于不同的编译器,__irq在函数名中的位置不一样,例如: ADS编译器中 : void __irq IRQ_Eint0(void); Keil编译器中 : void IRQ_Eint0(void) __irq; 但是其意义一 ...…

查看全部问答>

再次迷茫了

前些时间一直在搞linux,但是linux这玩意儿真的很烦人啊,所以又去搞win ce,在学api,感觉win ce 入门确实比linux简单很多,但是最近又发现在win ce上做应用的基本上都是 .net,偶尔有mfc的,c语言无用武之地啊。这样就觉得现在学的一点用都没有, ...…

查看全部问答>

请教这个IC是个什么东西

请教一下我手头有个电路板上有个IC,5脚封装,上面两脚下面三脚,特小的封装,上面的字符貌似是CO-60Y又或者是CO-GOY,字太小看不清楚,搜索这两个都找不到相关资料。通过测量得知它的功能大概是这样:电源从3脚输入1脚输出,1脚跟5脚是通路,4脚输 ...…

查看全部问答>

寻大虾合作开发机顶盒

http://topic.eeworld.net/u/20071201/18/a2aaf09f-7fa2-419c-93c1-77b51f9713d8.html?seed=1107526537…

查看全部问答>

iar环境下,uCosII在stm32下的运行机理是怎样的?

编译器的iar EWARM,uCosII 通过初始化下面的向量表,在程序复位时将程序定位到__program_start(void)函数,但该函数是个空函数呀,程序到底是怎么进行到正常状态的呢?请大虾们指点。另外,向量表__vector_table[] 的第一行{ ...…

查看全部问答>

STM32之TFT遇到麻烦了,求高手指教

经由Image2lcd处理后的图片最大只能到119288,显示出来的图片还不到1/3屏,正常是153600。如何处理才能使之显示满屏?…

查看全部问答>

在公司看个书怎么就违法了!!!(吐槽完了,封贴吧)

活不多的时候闲着看个书怎么就不对了? 而且我看的还是《编程匠艺》《uCos 操作系统》…… 怎么这就惹领导不高兴了?虽然工作上分配给我的是硬件,但看个代码就不对了? 就叫软件不软硬件不硬了??? 什么制度,做事就是给领导看,什么领导看到你 ...…

查看全部问答>

EEWORLD大学堂----WEBENCH FPGA Architect功能导览

WEBENCH FPGA Architect功能导览:https://training.eeworld.com.cn/course/165…

查看全部问答>