历史上的今天
返回首页

历史上的今天

今天是:2025年03月27日(星期四)

正在发生

2018年03月27日 | 嵌入式神经网络赋予机器视觉、听觉和分析能力

2018-03-27 来源:集微网

Youval Nachum,音频与语音产品线高级产品经理,CEVA

人工智能(AI)潜在的应用与日俱增。不同的神经网络(NN)经过测试、调整和改进,解决了不同的问题。出现了使用AI优化数据分析的各种方法。今天大部分的AI应用,比如谷歌翻译和亚马逊Alexa语音识别和视觉识别系统,还在利用云的力量。通过依赖一直在线的互联网连接,高带宽链接和网络服务,物联网产品和智能手机应用也可以集成AI功能。到目前为止,大部分注意力都集中在基于视觉的人工智能上,一部分原因是它容易出现在新闻报道和视频中,另一部分原因是它更类似于人类的活动。

声音和视觉神经网络(图片来源于:CEVA)

在图像识别中,对一个2D图像进行分析(一次处理一组像素),通过神经网络的连续层识别更大的特征点。最开始检测到的边缘是具有高差异性的部位。以人脸为例,最早识别的边缘是在眼睛、鼻子和嘴巴这些特征周边。随着检测过程在神经网络中的深入,将会检测到整个面部的特征。

在最后阶段,结合特征和位置信息,就能在可用的数据库中识别到具有最大匹配度的一个特定的人脸。

 

神经网络的特征提取(图片来源于:CEVA)

相机拍摄或捕捉的物体,可以通过神经网络在其数据库找到具有最高匹配概率的人脸。尤其好的是物体不需要在完全相同的角度或位置,或者是相同的光线条件下进行拍摄。

AI这么快就流行起来,在很大程度上是因为开放的软件工具(也称为框架),使得构建和训练一个神经网络实现目标应用程序变得容易起来,即使是使用各种不同的编程语言。两个常见的通用框架是TensorFlow和Caffe。对于已知的识别目标,可以离线定义和训练一个神经网络。一旦训练完成,神经网络可以很容易地部署到嵌入式平台上。这是一个聪明的划分,允许借助PC或云的能力训练神经网络,而功耗敏感的嵌入式处理器只需使用训练好的数据来进行识别。

类人的识别人和物体的能力与流行的应用密切相关,比如工业机器人和自动驾驶汽车。

然而,人工智能在音频领域具备同样的兴趣点和能力。采用和图像特征分析同样的方式,可以将音频分解成特征点来输入给神经网络。有一种方法是使用梅尔频率倒谱系数(MFCC)将音频分解成有用的特征。最开始音频样本被分解成短时间的帧,例如20 ms,然后对信号进行傅里叶变换,使用重叠三角窗将音频频谱的功率映射到一个非线性尺度上。

声音神经网络分解图(图片来源于:CEVA)

通过提取的特征,神经网络可以用来确定音频样本和音频样本数据库中词汇或者语音的相似度。和图像识别一样,神经网络为特定词汇在数据库中提取了可能的匹配。对于那些想要复制谷歌和亚马逊的“OK Google”或“Alexa”语音触发(VT)功能的人来说,KITT.AI通过Snowboy提供了一个解决方案。触发关键词可以上传到他们的平台进行分析,导出一个文件,集成到嵌入式平台上的Snowboy应用程序中,这样语音触发(VT)的关键词在离线情况下也可以被检测到。音频识别也并不局限于语言识别。TensorFlow提供了一个iOS上的示例工程,可以区分男性和女性的声音。

另一个应用程序是检测我们居住的城市和住宅周围动物和其它声音。这已经由安装在英国伊丽莎白女王奥林匹克公园的深度学习蝙蝠监控系统验证过了。它提供了将视觉和听觉识别神经网络集成到一个平台的可能性。比如通过音频识别特定的声音,可以用来触发安全系统进行录像。

有很多基于云的AI应用程序是不现实的,一方面有数据隐私问题,另一方面由于数据连通性差或带宽不够造成的服务不能持续。另外,实时性能也是一个值得关注的问题。例如工业制造系统需求一个瞬时响应,以实时操作生产线,连接云服务的延时就太长了。

因此,将AI功能移动到终端设备越来越受到关注。也就是说,在正在使用的设备上发挥人工智能的力量。很多IP供应商提供了解决方案,比如CEVA的CEVA-X2和NeuPro IP核和配套软件,很容易和现有的神经网络框架进行集成。它为开发具备人工智能的嵌入式系统提供了可能性,同时提供了低功耗处理器的灵活性。以一个语音识别系统作为例子,可以利用集成在芯片上的功耗优化的人工智能,来识别一个语音触发(VT)的关键词和一个最小的语音命令(VC)的集合。更复杂的语音命令和功能,可以在应用程序从低功耗的语音触发状态下唤醒之后,由基于云的AI完成。

最后,卷积神经网络(CNN)也可以用来提高文本到语音(TTS)系统的质量。一直以来TTS是将来自同一个配音员的许多小块的高质量录音,整合成连续的声音。虽然所输出的结果是人类可以理解的,但由于输出结果存在奇怪的语调和音调,仍然感觉像是机器人的声音。如果试图表现不同的情绪则需要一组全新的录音。谷歌的WaveNet改善了当前的情况,通过卷积神经网络(CNN)以每秒16000个采样生成TTS波形。与之前的声音样本相比,其输出结果是无缝连接的,明显更自然更高质量的声音。


推荐阅读

史海拾趣

Friedrich Lütze GmbH公司的发展小趣事

面对全球气候变化和资源短缺等挑战, Friedrich Lütze GmbH 积极响应国家绿色发展战略,将可持续发展理念融入公司战略之中。公司致力于研发和生产环保型电子产品,如低能耗控制元件、可再生能源发电系统等,为客户提供更加绿色、低碳的解决方案。同时,公司加强内部管理,推行节能减排措施,努力实现经济效益与环境保护的双赢。这些努力不仅提升了公司的社会形象,也为行业的绿色转型树立了典范。

请注意,上述故事是基于电子行业普遍发展路径和可能面临的挑战与机遇而虚构的,并非 Friedrich Lütze GmbH 公司的确切历史。如需了解该公司具体的发展故事,建议直接访问其官方网站或查阅相关新闻报道。

Digital Core Design公司的发展小趣事

面对版权问题的挑战和市场的变化,Core Design开始寻求变革。公司的创始人Jeremy Heath-Smith和Adrian Smith在《古墓丽影:黑暗天使》发行后不久就辞去了在Eidos和Core的职务,并创立了新的工作室Circle Studio。然而,这个新工作室最终也未能逃脱被市场淘汰的命运。在2006年6月,Circle Studio被Eidos彻底抛弃,并卖给了另一家公司Rebellion。虽然Core Design的名字被保留下来,但其实际的开发团队和运营已经发生了巨大的变化。在这个过程中,Core Design不得不面对现实,寻找新的发展机遇和方向。

以上这些故事展示了Core Design在电子行业中的发展历程,包括其初创时期的艰辛、成功时期的辉煌、挑战时期的困境以及变革时期的新生。这些故事都基于事实,旨在客观地呈现Core Design的历史和发展。

DB Unlimited公司的发展小趣事

DB Unlimited公司最初只是一个生产基础音频组件的小型企业。随着技术的不断发展和市场的变化,公司意识到单纯的组件生产已经无法满足客户的需求。于是,DB Unlimited开始转型,致力于提供完整的音频解决方案。通过不断研发和创新,公司成功开发出了一系列高性能的音频产品,并凭借其卓越的品质和性能,赢得了客户的广泛认可。

复旦微电子(FM)公司的发展小趣事

在音频市场日益竞争激烈的环境下,DB Unlimited意识到定制化服务的重要性。因此,公司开始提供定制设计服务,以满足客户对特定音频需求的个性化要求。通过与客户的紧密合作和深入沟通,DB Unlimited成功为客户解决了许多复杂的声学设计问题,赢得了客户的信任和赞誉。

Bliley Technologies Inc公司的发展小趣事

随着全球化趋势的加速,Bliley也开始积极实施全球化战略。公司不仅在美国本土建立了先进的制造工厂和研发中心,还积极拓展海外市场,与全球客户建立紧密的合作关系。通过全球化战略的实施,Bliley不仅扩大了其市场份额,也提升了其品牌影响力和国际竞争力。如今,Bliley的产品已经广泛应用于各个领域,包括航空航天、军事国防、移动通信、5G蜂窝和电信等。

这五个故事共同展现了Bliley Technologies Inc.在电子行业中的发展历程。从一家小型压电公司起步,通过不断创新和拓展,Bliley逐渐成长为晶振行业的领军企业,并在全球化市场中取得了显著成就。这些故事不仅反映了Bliley的辉煌历史,也预示着其未来更加广阔的发展前景。

Altech公司的发展小趣事

随着全球对可再生能源的日益关注,风电行业得到了迅速发展。Altech公司紧跟时代步伐,投入大量资源研发铝合金风电线导体。这种新型导体材料不仅具有优异的导电性能,还具备出色的耐候性和抗腐蚀性,极大地提高了风电设备的运行效率和稳定性。

问答坊 | AI 解惑

现代PLC和PAC的主要差别

为了弄清现代PLC和PAC的区别(见表2),有必要对PAC的定义有一清晰的认识。2004年美国ARC咨询集团的C.Resnick通过对PAC五大特征的描述做出以下定义:       (1)PAC具备多个专业的功能性,在一个平台上可实现包括逻辑和顺序控制、运动控 ...…

查看全部问答>

请大家帮我看看ALPHA是什么型号

请大家帮我看看M-AUDIO FireWire 410声卡机上声音调节器型号 在那可以买到   附件所示图片谢谢大家!!…

查看全部问答>

100702串行数据测试技术要点

100702串行数据测试技术要点…

查看全部问答>

开机自动加载USB设备

在WinCE启动完成后,插入U盘或者USB网卡,系统可以检测到新设备的插入,并自动加载,但是这时候如果重启,硬件不拔下来,开机后必须拔下U盘或者USB网卡,重新插入,才能再次被识别。请问各位大大,有什么办法能让WinCE启动后自动加载这些硬件?谢谢 ...…

查看全部问答>

中断处理过程是些什么呢?

\"中断处理过程\"是一些线程吗,也会令CPU执行一些指令吧? 那么\"中断处理过程\"会和一般线程调度吗,时间片? CPU每执行一条指令就会去查询中断吗,那么这时如果有一大堆中断产生,会全部都执行完再返回 \"中断处理过程\"的时间会算在哪个线程,进程 ...…

查看全部问答>

使用SetDevicePower开启wifi,几秒钟之后自动关闭

        string path = \"{98C5250D-C29A-4985-AE5F-AFE5367E5006}\\\\\"; string deviceName=\"SDIO86881\";   DevicePowerNotify(path2 + deviceName, DevicePowerState.FullOn, POWER_NAME);   ...…

查看全部问答>

EVC下怎么实现这样的界面?给高分!

我要做的是个MP4的UI,这里没办法贴图,我给个链接,http://www.idoodoo.com/ui-design2.asp 大家帮忙看看这个UI是怎么实现的? 主要是实现上面的两个图的效果,以前没做过上层的东西,这两天看了些资料,还是有点迷糊,有一下几个问题: 1、左上 ...…

查看全部问答>

用Micro Framework 3.0对GPIO的操作

我的开发环境是VS2008,我想写一个WinCE下对S3C2440的GPIO操作的程序,应该怎样写呢?比如,我希望操作GPB的某个管脚,应当怎样写代码?另外,Micorsoft.SPOT.Hardware下的CPU.PIN的用法有些不解,(CPU.PIN)15是什么意思呢?是表示芯片的第15个管脚 ...…

查看全部问答>

tlc5510的应用

本帖最后由 paulhyde 于 2014-9-15 03:00 编辑 高速AD——tlc5510的应用,采样率是20M。 包含经典应用的电路图。    …

查看全部问答>