历史上的今天
今天是:2025年02月05日(星期三)
2021年02月05日 | AI语音生物识别技术将为未来生活带来更多乐趣
2021-02-05 来源:EEWORLD
人工智能语音生物识别足够准确,可以进行身份验证。
在无处不在的消费物联网细分市场中,随着应用机会越来越多,各种娱乐、通信、家庭自动化、安全性以及其他各种设备层出不穷,使得人们的兴趣和需求越来越旺盛。对更具沉浸感和感知力的人机交互的需求是推动智能家居中边缘AI需求的关键因素。
其中人工智能(AI)的进步使语音生物识别技术具备了足够的准确性,不仅可以用于身份识别和个性化,还可以用于支付认证等应用。近期Synaptics和ID R&D公司的一项新解决方案提供了人工智能驱动的语音生物识别和反欺骗算法,可以在边缘设备的Synaptics SOC上运行。具体来说,该软件已针对Synaptics的VS600系列中的神经处理单元(NPU)进行了优化,从而适用于机顶盒、智能音箱和安全系统等智能家庭设备。

Synaptics将其具有人工智能功能的SOC应用到需要处理视频流、音频流和图像的智能家居产品中。例如,最典型的就是带有用于视频会议摄像机的机顶盒。
Synaptics市场副总裁Vineet Ganju表示:“在机顶盒应用程序中,使用语音作为界面交互方式已很普遍。可以启用语音遥控,这样你就可以对着它说话,导航你的Netflix账户,搜索电影……语音作为界面几乎正在成为这些应用程序的标准。”
当机顶盒运行Netflix时,用户要做的第一件事就是选择使用谁的配置文件。有了语音生物识别技术,机顶盒可以立即知道谁在看,从而在整个操作流程会简单一些。

语音生物识别技术现在已经足够精确,可以在智能家居设备上进行支付认证
Ganju:“例如,对于按次付费的内容,你不仅可以通过语音搜索找到某些可能不属于订阅内容的电影,运营商希望能够立即进行身份验证,让你当场购买这部电影。他们认为这不仅帮助用户找到自己的个性化内容,还让他们能够为这些内容付费并观看。”
在设备上进行语音注册
ID R&D公司的语音生物识别人工智能从声音中提取了400多个特征,包括与频率/音高相关的参数组合,以及如发音和口音等其他东西。
ID R&D公司销售的高级副总裁John Amein介绍:“它不像早期的语音生物识别技术那样受到限制。直到去年左右,人工智能语音生物识别技术才达到了支付认证等应用所需的准确性。”
该算法通过一个名为“(enrollment)注册”的过程来学习识别用户的声音。在注册过程中,用户将一个短语重复三次。任何短语都可以使用,它适用于任何现成的语言。这些过程将在边缘设备上处理。
ID R&D的人工智能算法误认率低于1 / 10000,这与有人猜测你的密码的几率相比显然低得多。错误拒绝率表示登记用户的声音被错误拒绝的比率,它也在5%左右。此外,用于欺骗攻击的欺骗通过率(SAR),例如对系统播放的用户语音的记录,高于7%,这是对Android设备的生物测定解锁的标准上限。
Amein:“生物特征匹配的误接受率为万分之一,而反欺骗比安卓标准要求的7%要高,我们所做的是让语音生物识别技术被接受作为支付的授权足够安全。”
反欺骗
ID R&D公司的反欺骗技术也依赖人工智能。
Amein:“语音的带宽高达3500Hz,我们的采样速率要比这个高得多。所以我们听到的频率比说话的声音要高。我们在这些更高的音域里可收听不同的特征。”
通过我们管状声道产生声音的特征频率与平面振动产生的声音非常不同,比如扬声器。这是反欺骗人工智能用来区分现场声音和录音的关键因素之一。
“我们还可以检测合成的声音,比如文本到语音的应用程序,其中很多都不是那么出色,但它们变得越来越逼真。在这种情况下,信号仍然存在一些异常,在某些情况下,信号太过完美,或者只是耳朵听不到的过渡或相位差异,但人工智能可以。”
神经处理单元在语音处理的妙用
Synaptics的VS600系列SOC具有神经处理单元,Synaptics的Vineet Ganju表示,VS680的NPU提供6.75个TOPS,而新发布的VS640提供1个TOPS,减少的原因在于,要实现更主流的成本、性能和功耗。这两部分的NPU都拥有“足够多的”算力,可以同时运行ID R&D公司的语音生物识别算法和反欺骗程序。与使用芯片的CPU相比,NPU能够将语音生物识别推断的速度提高10倍,而CPU的利用率则降低了3倍。
Synaptics为ID R&D等公司提供了一套工具来优化NPU的技术,虽然ID R&D是Synaptics在这方面的第一个合作伙伴,但该公司未来将与更多的合作伙伴合作语音生物识别以外的应用。
近期,他们推出了SyNAP工具,该工具支持专门针对VS600 SOC中的处理器进行优化。开发人员可以使用SyNAP优化功能来配置其身体姿势估计模型,例如,使其能够以每秒30帧的速度在VS600 SOC上实时运行。

Ganju表示:“根据我们与语音识别公司的合作,我们实际上可以在设备上做一个完整的英语词汇语音识别引擎,这也在NPU的最高能力范围内。因此,在语音识别方面,你可以拥有一个完全脱机的产品……例如,对于用户不能立即连接到WiFi,车载语音识别可以帮助他们在连接之前就获得良好的即时体验。”
ID R&D公司的第一个软件版本将于1月晚些时候在Synaptics的VS600开发套件上发布。
史海拾趣
|
最近几天也在跟朋友聊,关于创业的事,创业意味着自己有了奔向自由资金的潜力,因而,不管目前状况多窘迫,只要坚持下来,总有收获的。 那么如果想组建个自己的弱电公司,你觉得需要具备哪些条件呢? 也有朋友说,如果不是从产品入手而是从工程入 ...… 查看全部问答> |
|
我得linux内核下载到开发板2410中 ifconfig出来得ip是192。168。10。220 我想让它改成0。220 可我该完了每次重启它又回复以前得设置,请问在那里才能彻底改掉啊!!!… 查看全部问答> |
|
如果能的话,怎么设。 还有,我几个GR64把数据发给网络上的一个IP地址,然后我再用一个模块去那个IP上取数。这个方法可以实现吗? 还有哪位老大有GR64的资料可以发给我。邮箱是cuilg_0519@163.com。谢谢!!! … 查看全部问答> |
|
程序需要使用到键盘。 应用程序随系统自启动前,是通过USB放在系统里,此时板子上的键盘正常。 重新编译内核,将程序集成到内核,以随系统自启动。这样程序启动后,键盘却不能正常使用了。键盘是由六个按键组成。 请教,这是什么原因造成的? p ...… 查看全部问答> |
|
版主,咨询个问题。STM32如何关闭中断嵌套,操作哪一寄存器,谢谢! 因为目前TIM中使用PWM捕获的时候,很有可能受外界干扰,导致当进入捕获中断的时候,还未完成所有寄存器的读,未出中断时,来了一个干扰脉冲,让TIM再次进入中断。… 查看全部问答> |
|
【投票】准备用TI的CORTEX系列做个东西,到底做啥好呢? 网络收音机: 这个论坛上已经有人实现了的。但是很多都是用硬件解码的,如果能用软件解码倒也不错。。 PDA: 包含有图片浏览,放歌,小游戏。。。。。等功能。基本上和一台掌上电脑功能差不多。。。 掌上游戏机 就是 ...… 查看全部问答> |




