历史上的今天
返回首页

历史上的今天

今天是:2025年01月23日(星期四)

正在发生

2019年01月23日 | 嘘!AI正在悄悄听懂你的话

2019-01-23 来源:亿欧网

小时候看特务电影时,特工们往往有一项必备的技能,就是隔着几百米远盯着正在说话的对象,从嘴型判断出对方在说什么。有了这种记忆,导致如今看什么语音识别技术都觉得相当一般——我都说出声儿了你才听懂,算什么AI好汉。

不过最近一项专利申请表明,微软正在向特工学习,推出了无声语音识别技术。当AI也能像特工一样,无声之中辩人言,我们的世界究竟会有什么不同?

除去唇语识别,AI还有什么方式悄悄听懂你的话?

说起无声语音识别,可能很多人第一反应就是复制人类的方式,利用图像识别进行辩读唇语。而利用唇语进行语音识别这种方式也由来已久,但是识别的准确率一直不算高。DeepMind曾在2016年做过测试,经过1万小时的新闻视频训练,AI唇语准确率达到了46.8%。国内有一家企业曾经提供过相关数据:在对中文新闻视频的识别中,准确率达到了70%。而搜狗所推出的驾驶场景下的唇语识别,因为涉及到的词汇量很少,准确率能够达到90%。

可以发现,相比现在主流语音识别动辄95%、97%的准确率,唇语识别准确程度实在是有些拿不上台面。对于中文这种一字一音节的语言来说还好,对于英文这种连音很多的语言来说,唇语识别要跨越的门槛确实不小。

另一方面来看,唇语识别所涉及到伦理问题实在过于严重。唇语识别的“射程”太远,如果这种技术真的发展成熟,意味着天网之下的我们在交谈时将再无隐私。在隐私焦虑越来越浓的今天,哪家企业公开研究这项技术,只怕是觉得自己家的公关部门过得太清闲。

因此包括微软在内的产业和学界,都在寻找一种更精准也更隐私的无声语言识别。目前看来,无声语音识别的技术方向可以被分为两个“派系”,一是“气宗”,另一个是“电宗”。

微软所提交的专利,就是典型的“气宗”——在终端上添加传感器,通过感知用户说话时的气流来判断用户说话的内容。这种终端如同一只小型麦克风,置于用户嘴边,用户在说话时形成的气流会在设备中形成反射,经过训练,可以将这些气流反射的信号和文字一一对应。

而“电宗”则更加神奇,我们知道人在说话时需要调动整个下半张脸的肌肉,不同的文字发音所调动肌肉的方式也并不相同。通过对面部EMG(肌电)信号的采集,来学习人类说话时面部EMG信号特征,并通过神经网络的训练将EMG信号和文字对应起来。

可以看出这两种无声语音识别都有一个共同的特点,那就是自主性和私密性。不管是EMG信号采集还是气流采集,都需要在讲话者身上佩戴好设备,而不是像图像技术一样,能够在远程且讲话者不知情的情况下进行采集分析。

无声语音识别变成真·气功?

不论是气宗还是电宗,这些无声语音识别技术都面临着同样的问题——既然要用户把话说出来才能进行识别,那为什么不直接应用语音识别来进行文字转换和翻译,非要弄一些和“气功”一样没有切实应用场景的花招?

其实无声语音识别的应用,可能不像大家想象的那样广泛,它既不能以最高效的方式帮助听障人士,也不允许被应用于监听等等工作。但在一些关键场合下,无声语音识别却可以发挥出奇用。

我们可以一起开动脑筋,想想在哪里人们需要说话,但却听不到彼此的声音。答案很简单,要么是在声音无法传播的地方,要么是在一些特别嘈杂的地方。于是无声语音识别就有了如下的应用场景:灾害现场、舱外探索、水下作业……

在这类场所中,人们或许为了躲避被污染的空气、或许为了呼吸氧气,都会穿上类似生化服、宇航员服等等特殊服装。穿上之后既看不到对方的表情,也听不到对方的声音,更没办法用语音交互去控制其他设备了。同时环境情况(例如氧气不够充足)往往不允许人们以正常的声音说话,加上防护服的封闭状况会引起声音的回响,以往的有声语音识别在这种情况下很难发挥作用。

这时可以被安置在防护服内部的无声语音识别就显得很有价值,讲话者只需要做出口型就能向外界传递信息。

除此之外还有嘈杂的马路、工厂车间、机场……

在这些场所中,想要让对方听清自己的声音,往往需要扯着嗓子吼。想让语音识别准确拾音,更是难上加难。这时利用无声语音识别就会轻松很多,不仅可以准确表达信息,也能让一些处于这种场合的工作人员戴上隔音耳塞保护自己的听力。

实际上目前在欧洲一些型号的战斗机中,就因为机舱内噪音巨大、飞行员之间无法沟通,已经应用上了EMG信号无声语音识别技术。

当然,目前相比语音识别技术、甚至相比唇语语音识别,无声语音识别技术的发展阶段还很初级,应用效率也不高。

实际上无声语音识别是一项典型的“美好而无用”的AI技术,它既完美体现了一系列技术的排列组合,例如EMG信号无声语音识别所体现出的AI与神经学的结合;又在应用上极大程度的受限,即使在一些声音难以传播的场景下,也要考虑计算条件、识别语音后信息再传递的媒介,更不用提复杂的数据收集工作了。

但我们有理由相信,在未来AI技术越来越普及化、应用成本越来越低时,总会出现一些极端场景应用上这些看似无用的技术——也许未来有一天,战斗机的控制也要应用上语音交互呢?

推荐阅读

史海拾趣

AAEON公司的发展小趣事

AAEON公司是一家总部位于台湾的全球性电子公司,专注于提供嵌入式计算解决方案和人工智能应用平台。以下是关于该公司发展的五个相关故事:

  1. 公司成立和初期发展: AAEON公司成立于1992年,最初主要从事电脑主板的设计和生产。公司在成立初期致力于提供高质量、高性能的计算解决方案,迅速在台湾本地市场建立了良好的声誉。

  2. 技术创新和产品多样化: 随着技术的发展和市场需求的变化,AAEON开始进行技术创新,并逐步扩展产品线。公司不仅持续改进和推出新型的嵌入式计算产品,还积极涉足人工智能领域,开发智能边缘计算平台和解决方案。

  3. 国际市场拓展: 为了进一步扩大业务规模,AAEON积极拓展国际市场。公司与全球各地的合作伙伴建立了广泛的合作关系,产品销售网络覆盖了亚洲、欧洲、北美和其他地区。公司还在一些国家设立了分支机构和办事处,加强了对当地市场的开拓和服务。

  4. 合作伙伴关系和生态系统建设: AAEON与众多的合作伙伴建立了紧密的合作关系,共同推动产品的创新和市场拓展。公司与主流的芯片厂商、系统集成商、软件开发商等建立了长期稳定的合作关系,共同打造了完善的生态系统。

  5. 未来展望和发展方向: AAEON将继续致力于技术创新和产品升级,加强在嵌入式计算和人工智能领域的领先地位。公司将不断推出符合市场需求的新产品和解决方案,为客户提供更优质的服务和支持。同时,AAEON将继续加强与合作伙伴之间的合作,共同推动行业的发展和进步。

ESS [ESS Technology,Inc]公司的发展小趣事

ESS一直将技术创新作为公司发展的核心动力。通过不断投入研发资源,ESS在音频芯片、视频技术、传真/调制解调器技术等领域取得了多项重要突破。这些技术创新不仅提升了ESS产品的性能和品质,还为公司在市场中赢得了更多竞争优势。同时,ESS还积极与全球知名企业和研究机构合作,共同推动半导体芯片技术的创新和发展。正是这种持续的技术创新和不懈的追求卓越,使ESS在电子行业中始终保持领先地位。

ATM [Advanced Technical Materials]公司的发展小趣事

20世纪60年代,英国人谢泼德·巴伦产生了发明一款“随时可以取钞票的机器”的想法,并付诸实践。1967年6月27日,世界上第一台ATM在英国伦敦北部的巴克莱银行亮相。这台机器的成功推出,标志着ATM开始进入公众的视野,并逐渐在全球范围内得到广泛应用。

Easy Braid公司的发展小趣事

作为一家有社会责任感的企业,Easy Braid始终关注环保和公益事业。公司采用环保材料和生产工艺,减少了对环境的污染。此外,Easy Braid还积极参与各种公益活动,为社会做出了积极贡献。这种关注社会责任的企业文化不仅增强了员工的凝聚力和归属感还提升了公司的社会形象和品牌价值。

AXSEM公司的发展小趣事

在技术创新和品质保证的基础上,Easy Braid开始积极拓展市场。公司不仅在国内市场取得了良好的业绩,还逐步将目光投向了国际市场。通过与国外知名企业的合作,Easy Braid成功地将自己的产品打入国际市场,实现了品牌的全球化布局。这一过程中,Easy Braid展现出了强大的市场竞争力和适应能力。

强盛电子(AEC)公司的发展小趣事

随着环保意识的日益增强,AEC积极响应国家绿色发展的号召,将环保理念融入企业的日常运营中。公司投入大量资金进行环保技术的研发和应用,推动生产过程的绿色化、低碳化。同时,AEC还积极参与社会公益活动,为保护环境、促进可持续发展贡献了自己的力量。

问答坊 | AI 解惑

通讯用平面UWB天线的设计技巧

由于UWB(Ultra Wide Band)系统使用500MHz以上的宽频高速传输资料,因此UWB天线必需具备很好的频率特性,最近几OFDM(Orthogonal Frequency Division Multiplex)与Mono Pulse通讯逐渐普及化,UWB的应用更受到各界关注。美国联邦通讯委员会(FCC ...…

查看全部问答>

新手学习嵌入式从那里入手好呢??

我是学习电气自动化的应届毕业生,想在毕业后在嵌入式方向发展,但是我在学校只学过80c51单片机和c语言,请各位高手指教一下!我应该从那里入手学习嵌入式呢,谢谢…

查看全部问答>

数控直流稳压设计

本帖最后由 paulhyde 于 2014-9-15 09:19 编辑 数控直流稳压设计  …

查看全部问答>

光电检测试验资料

本帖最后由 paulhyde 于 2014-9-15 09:14 编辑 光电测量技术实验指导书  …

查看全部问答>

cc1101 + 单片机 还是cc2430

cc1101 + 单片机 的成本要低于 cc2430不少 请问,我是要在10米内隔几分钟发送一个数字 这两种方案,哪个更好?…

查看全部问答>

在today界面显示标签

我想在today界面的上面部分,就是在显示电量、信号量的地方,添加一个label控件,用于显示当前的温度,怎么才能做到? 谢谢各位的指教…

查看全部问答>

wince快捷方式

正在搞一个放在SD卡上面的AP,每次路径访问很麻烦,能否搞一个快捷方式从桌面上面直接启动? 我查了下网上写的,18#/windows/**.exe的方法,但是系统一直报SD卡的路径不对,各位有没有搞过一个快捷方式能直接启动放在SD上的程序? 多谢多谢!…

查看全部问答>

关于uc/OSII的调试?用什么编译器!

关于uc/OSII的调试?用什么编译器! ___最近在学uc/OSII,要用到BC4.52,但很难下载到,下到的不是IDE,不习惯用命令行方式,请问各位,还有其它更好的编译器可用来调试uc/OSII吗?谢谢!…

查看全部问答>

9263WINCE5.0下SD卡驱动的问题

9263板跑WINCE5,使用SD卡时,时常从串口输出: WaitForSingleObject == WAIT_TIMEOUT (1000) StatusMask = 0x20 status 0xc0c5 这串数据重复输出,并且SD卡读写速度变得非常之慢。 查程序发现是PLATFOM\\COMMON\\SRC\\ARM\\ATMEL\\AT91SAM926 ...…

查看全部问答>