历史上的今天
返回首页

历史上的今天

今天是:2025年03月31日(星期一)

正在发生

2021年03月31日 | 语音控制会成为我们的主要用户界面吗?

2021-03-31 来源:EEWORLD

翻译自——EEtimes

 

语音控制和语音界面已经开始渗透到所有尖端消费设备类别中。语音识别算法和人工智能加速器硬件的进步,意味着这项技术甚至可以应用于电力和成本受限的应用领域,比如智能家居设备。

 

See the source image

 

从用户的角度来看,智能家居设备语音控制背后的驱动程序是清楚的。

 

PicoVoice首席执行官Alireza Kenarsari-Anhari表示:“易用性和便捷性是目前的主要驱动因素,”很容易想象,当你想要一杯咖啡时,你会从办公桌上对着家里办公室的咖啡机大喊大叫,或者一边拿着一篮湿衣服,一边对滚筒式烘干机发号施令。

 

Alireza Kenarsari-Anhari PicoVoice Voice Control

 

我们假设这些不能随身携带的智能设备可以永久连接家里的WiFi,那么为什么不在云端进行语音处理呢?

 

在这种情况下,边缘人工智能的趋势主要是由隐私驱动的。Alireza表示,隐私是消费者所担忧的,但对一些企业来说是必须具备的。可靠性是另一个驱动因素:“如果你的WiFi连不上,你的洗衣机有意义吗?”

 

延迟在某些情况下也很重要;有些应用程序确实需要语音工作负载处理的实时保证,比如游戏。

 

由于在云端处理这些语音数据需要额外费用,所以成本是语音边缘处理的另一个主要驱动因素。每次使用云API付费的业务模式不适用于家用电器和消费电子产品等用例,它们的成本点较低,而且可能每天使用多次。

 

PicoVoice的人工智能语音到文本推理引擎被设计为在低于1美元的微控制器上独立于云运行,其目标是在应用程序中实现语音控制。这可能包括消费类可穿戴设备和可听设备,它们正处于电力效率和成本效率的交叉点,而基于微控制器的语音解决方案可以实现这一点。Kenarsari-Anhari表示,这种功率和成本优化的解决方案还可以开启工业、安全和医疗应用领域的机遇。

 

PicoVoice最近推出了Shepherd,这是一个在微控制器上构建语音应用程序的无代码平台,它与该公司的模型创建软件PicoVoice Console兼容。Shepherd支持来自ST和NXP的流行Arm Cortex-M微控制器,并支持其他正在开发中的设备。

 

Kenarsari-Anhari:“我认为语音是一种开发界面——如果你不用编码就能构建你的GUI或网站,也许可以使用WordPress,下一步就是用类似的方式构建语音界面。Shepherd正在授权产品经理和用户体验设计师快速构建原型和迭代,但我们的目标是扩大其目标用户基础。”

 

虽然开发自然语言处理模型并在没有专业软件的情况下实现它们是完全可能的,但这种方法并不适合所有人。

 

“当然可以——苹果、亚马逊、谷歌和微软都做到了,关键在于企业是否拥有资源,是否致力于围绕它建立组织,是否有能力等上几年。”

 

未来趋势

 

去年夏天,Syntiant首席执行官Kurt Busch在接受采访时表示,语音正在成为下一代技术用户的首选界面。

 

Kurt Busch通过他最小的孩子描述了这一未来。他最小的孩子因为年纪太小,可以阅读却无法写作,借助智能手机的语音功能却实现了与朋友互发短信。

 

Busch:“他的哥哥姐姐们会发短信,但他这一代人比他们早几年有了手机,随着时间的流逝,对他这一代和更年轻的一代来说,他们的默认界面就是与之交谈。”

 

Busch认为,语音将成为“未来的触摸屏”,设备内处理将首先在有键盘或鼠标的设备上提供快速、响应性好的界面,然后在白色家电上使用。

 

Syntiant的芯片是专业的人工智能加速器,旨在以低到极低的功耗预算处理消费电子设备中的语音人工智能工作负载。到目前为止,这家初创公司已经在全球销售了超过1000万颗芯片,其中大多数都进入了手机,以实现永远在线的关键字检测。最新的Syntiant芯片NDP120,可以识别“OK Google”等热点词, 可在280µW以下激活谷歌助手。

 

在未来,Busch还认为语音控制可以让每个人都能连接和获取技术。

 

Kurt Busch Syntiant Voice control

 

“我们认为声音是技术民主化的重要工具,世界上有30亿人每天靠2美元生活。这些人大部分没有互联网访问权限,没有受过教育,不会写字、阅读,语音界面化对他们来说意义重大。这里的自然界面是[语音]。这就是你如何将技术带入当今世界没有与技术互动的第三个世界。我们看到很多发展中国家对语音优先应用很感兴趣,希望让那些以前可能没有接入的社会阶层受益,这不仅是从费用的角度考虑,也从舒适的角度考虑。”

 

在这种情况下,很多发展中国家已经对对话式AI产生了很大的兴趣。

 

市场细分

 

Knowles物联网高级总监Vikram Shirastava表示,像语音交互这样快速增长的市场的危险在于,它可能会很快变得极其分散,这不仅仅是在硬件方面。

 

Shirastava:“市场会因为使用的是哪种语音识别引擎而变得分散。市场会变得支离破碎,这取决于你是集成了电视SoC还是内置了一个简单的MCU。基于操作系统,或者基于声音环境,应用场景会变得碎片化——仅仅是家庭吗?不可能有放之四海皆准的解决方案。你必须找到这些垂直领域的共同点,并据此解决声音整合问题。”

 

Knowles有一个基于DSP的语音控制解决方案,它打算为不同的垂直领域推出版本。Knowles的方法是,将市场细分为具有共同特征的类别——例如,家用控制、电视音频和远程控制可能属于同一类别。然后开发一个针对这类应用程序进行优化的解决方案。Shirastava将这种方法称为“在交钥匙之下的一个层次”,它提供了交钥匙的可伸缩性,但又增加了一些灵活性。

 

Shirastava表示:“我们必须推出几款不同的发行版本,以解决碎片化的某个方面,这样我们才能覆盖我们想要追逐的垂直领域。”

 

Knowles推出了AISonic蓝牙标准解决方案,这是一个完整的开发解决方案,旨在实现快速、便捷的语音集成到蓝牙设备中。该开发包使OEM和ODM能够在蓝牙设备中构建语音通话、控制和远场语音识别功能,包括智能音箱、智能家居锁、连接灯开关、可穿戴设备和车载语音助手。该套件基于Knowles的IA8201双核DSP芯片,该芯片专为神经网络处理而设计,功耗远低于应用处理器。例如,该芯片可以在50兆瓦以下同时处理关键字识别、源分类、波束形成、声回波抵消(AEC)和源方向估计等独立的AI模型。Tensilica DSP核心上的近400条用于音频和AI处理的自定义指令集扩展实现了这一点,从而降低了时钟频率,以节省功耗。

 

Knowles推出AISonic蓝牙标准解决方案,可在小型电池供电的设备中实现语音唤醒功能

AISonic蓝牙标准解决方案是Knowles新的参考解决方案系列下的一个开发包,该系列用于电视、便携式扬声器、声霸、白酒和各种物联网电子产品的语音激活、控制和上下文音频处理,被称为Knowles工业标准解决方案。

 

Voice control in-auto Sugr iOttie Aivo Connect

Sugr的iOttie Aivo Connect汽车智能手机支架使用Knowles的IA8201车载语音功能。它内置了Alexa语音助手。

 

随着AI技术的不断进步,对话式AI正在成为解放双手和提高生产力的关键工具。复杂的语音开发环境、云端处理语音数据成本较高、设备的高功耗、市场碎片化等都是语音界面化的阻碍因素。语音最终会成为大多数消费电子产品的默认用户界面吗?看起来确实是这样。先进、高效的人工智能语音控制算法、使开发人员能够轻松集成语音,以及不断增长的能源和成本效益高的硬件解决方案生态系统的出现,使这一切会成为可能。


推荐阅读

史海拾趣

Hisetec Electronic Co Ltd公司的发展小趣事

背景:进入数字化时代,企业面临着前所未有的挑战和机遇。Hisetec Electronic Co Ltd公司深知数字化转型的重要性,开始积极探索数字化转型之路。

发展:公司引入了先进的智能制造系统和大数据分析技术,实现了生产过程的智能化和精细化管理。同时,公司还建立了数字化营销平台,通过精准营销和个性化服务提升客户满意度。数字化转型的成功实施,使Hisetec公司在激烈的市场竞争中保持了领先地位。

芯茂微电子公司的发展小趣事

芯茂微电子始终坚持以创新驱动发展,不断投入研发资源,推动技术创新和产品升级。同时,公司积极寻求与国内外知名企业和研究机构的合作,共同开展技术研发和市场拓展。通过与合作伙伴的紧密合作,芯茂微电子在集成电路设计、制造工艺、封装测试等方面取得了重要进展,进一步提升了公司的核心竞争力和市场地位。

Everett Charles Technologies (ECT)公司的发展小趣事

1996年,ECT为了进一步壮大在产业中的主导地位,加入了Dover集团。Dover集团是一家在纽约股票交易所上市的全美500强大企业之一,其业务涵盖工业、工程系统、流体、电子技术等多个领域。加入Dover集团后,ECT得到了更多的资源和支持,实现了跨越式发展。Dover集团的全球布局和丰富资源,为ECT在全球范围内的业务拓展提供了有力保障。

Helium公司的发展小趣事

随着Helium在物联网领域的不断突破和发展,其市场认可度逐渐提升。在2021年,Helium通过Token销售完成了1.11亿美元的融资;次年年初,又以12亿美元估值完成了2亿美元的D轮融资。这些融资的成功不仅为Helium提供了充足的资金支持,也进一步验证了其在物联网和区块链领域的商业价值和发展潜力。同时,Helium还吸引了众多明星机构和投资者的青睐,为其未来的发展奠定了坚实的基础。

FOCI Fiber Optic Communications Inc公司的发展小趣事

为了进一步提升网络性能和用户体验,Helium团队自主编译并开源了LongFi协议。这一协议能够将物联网主流LoRaWAN无线协议应用到Helium区块链应用层,实现了物联网与区块链的深度融合。LongFi协议的推出不仅提高了数据传输的效率和稳定性,还降低了物联网设备的能耗和成本。这一技术创新为Helium赢得了更多用户和合作伙伴的信任和支持,推动了其业务的持续发展。

Giga公司的发展小趣事
如自动浇水系统、温度控制系统等,通过定时启动或关闭设备。

问答坊 | AI 解惑

怎么仿真MAX485的双路备份通讯系统?

大家好,我想仿真下MAX485多点通信,通讯网路上连接4个485芯片(编号为1、2、3、4),其中,1和2构成一路主从,3和4构成一路主从,当1和2通讯时,3和4不通讯;反之,3和4 通讯时,1和2 不通讯(此时1和2不加电,作为备份用)。但是有个问题,4个MAX ...…

查看全部问答>

[销售]进口瑞侃Raychem阻燃电线2.5平方

名称:瑞侃RAYCHEM阻燃电线 型号:FLDWC0311-2.50 规格:2.5平方 数量:10000米 单价:6元/米 邮费:买家自理 详细见图: …

查看全部问答>

LED使用寿命

LED在一般说明中,都是可以使用50,000小时以上,还有一些生产商宣称其LED可以运作100,000小时左右。这方面主要的问题是,LED并不是简单的不再运作而已,它的额定使用寿命不能用传统灯具的衡量方法来计算。实际上,在测试LED使用寿命时,不会有人一 ...…

查看全部问答>

LED不是梦,LED 投影钟价格才十元

起码创意是咱DIY可以学学的 …

查看全部问答>

核磁共振对人有危害吗?

谁能脱口而出得出答案? 来看看专业解释: 核磁共振成像是利用电子计算机对人体断面进行图像分析诊断的检查方法,它不用X线,而是磁场,其基本原理是人体所含氢原子在强磁场下给予特定的高波后会发生共振现象,产生一种高波数的电磁波。核磁共振 ...…

查看全部问答>

关于学电子的教材问题

想学好电子技术,希望各位介绍些好的教材.谢了!…

查看全部问答>

请教串口程序问题

#include #define uchar unsigned char #define uint unsigned int unsigned char flag,a,i; uchar code table[]=\"I get \"; void init() {         TMOD=0x20;     //确定T1的工作方式     & ...…

查看全部问答>

关于assert的错误

在有些时候,建好工程后调试会出现assert的错误,这个错误不知道是怎么回事,好象跟设置和程序都没关系.请问这个错误怎么处理的…

查看全部问答>

产生方波问题

怎样使用stm32中的定时器,产生50hz的方波,知道的只需将对应的参数告诉我即可!!谢谢啦,帮帮忙!!…

查看全部问答>