历史上的今天
返回首页

历史上的今天

今天是:2025年02月11日(星期二)

正在发生

2019年02月11日 | 嘘!AI正在悄悄听懂你说的话

2019-02-11 来源:亿欧网

小时候看特务电影时,特工们往往有一项必备的技能,就是隔着几百米远盯着正在说话的对象,从嘴型判断出对方在说什么。有了这种记忆,导致如今看什么语音识别技术都觉得相当一般——我都说出声儿了你才听懂,算什么AI好汉。

不过最近一项专利申请表明,微软正在向特工学习,推出了无声语音识别技术。当AI也能像特工一样,无声之中辩人言,我们的世界究竟会有什么不同?

除去唇语识别,AI还有什么方式悄悄听懂你的话?

说起无声语音识别,可能很多人第一反应就是复制人类的方式,利用图像识别进行辩读唇语。而利用唇语进行语音识别这种方式也由来已久,但是识别的准确率一直不算高。DeepMind曾在2016年做过测试,经过1万小时的新闻视频训练,AI唇语准确率达到了46.8%。国内有一家企业曾经提供过相关数据:在对中文新闻视频的识别中,准确率达到了70%。而搜狗所推出的驾驶场景下的唇语识别,因为涉及到的词汇量很少,准确率能够达到90%。

可以发现,相比现在主流语音识别动辄95%、97%的准确率,唇语识别准确程度实在是有些拿不上台面。对于中文这种一字一音节的语言来说还好,对于英文这种连音很多的语言来说,唇语识别要跨越的门槛确实不小。

另一方面来看,唇语识别所涉及到伦理问题实在过于严重。唇语识别的“射程”太远,如果这种技术真的发展成熟,意味着天网之下的我们在交谈时将再无隐私。在隐私焦虑越来越浓的今天,哪家企业公开研究这项技术,只怕是觉得自己家的公关部门过得太清闲。

因此包括微软在内的产业和学界,都在寻找一种更精准也更隐私的无声语言识别。目前看来,无声语音识别的技术方向可以被分为两个“派系”,一是“气宗”,另一个是“电宗”。

微软所提交的专利,就是典型的“气宗”——在终端上添加传感器,通过感知用户说话时的气流来判断用户说话的内容。这种终端如同一只小型麦克风,置于用户嘴边,用户在说话时形成的气流会在设备中形成反射,经过训练,可以将这些气流反射的信号和文字一一对应。

而“电宗”则更加神奇,我们知道人在说话时需要调动整个下半张脸的肌肉,不同的文字发音所调动肌肉的方式也并不相同。通过对面部EMG(肌电)信号的采集,来学习人类说话时面部EMG信号特征,并通过神经网络的训练将EMG信号和文字对应起来。

可以看出这两种无声语音识别都有一个共同的特点,那就是自主性和私密性。不管是EMG信号采集还是气流采集,都需要在讲话者身上佩戴好设备,而不是像图像技术一样,能够在远程且讲话者不知情的情况下进行采集分析。

无声语音识别变成真·气功?

不论是气宗还是电宗,这些无声语音识别技术都面临着同样的问题——既然要用户把话说出来才能进行识别,那为什么不直接应用语音识别来进行文字转换和翻译,非要弄一些和“气功”一样没有切实应用场景的花招?

其实无声语音识别的应用,可能不像大家想象的那样广泛,它既不能以最高效的方式帮助听障人士,也不允许被应用于监听等等工作。但在一些关键场合下,无声语音识别却可以发挥出奇用。

我们可以一起开动脑筋,想想在哪里人们需要说话,但却听不到彼此的声音。答案很简单,要么是在声音无法传播的地方,要么是在一些特别嘈杂的地方。于是无声语音识别就有了如下的应用场景:灾害现场、舱外探索、水下作业……

在这类场所中,人们或许为了躲避被污染的空气、或许为了呼吸氧气,都会穿上类似生化服、宇航员服等等特殊服装。穿上之后既看不到对方的表情,也听不到对方的声音,更没办法用语音交互去控制其他设备了。同时环境情况(例如氧气不够充足)往往不允许人们以正常的声音说话,加上防护服的封闭状况会引起声音的回响,以往的有声语音识别在这种情况下很难发挥作用。

这时可以被安置在防护服内部的无声语音识别就显得很有价值,讲话者只需要做出口型就能向外界传递信息。

除此之外还有嘈杂的马路、工厂车间、机场……

在这些场所中,想要让对方听清自己的声音,往往需要扯着嗓子吼。想让语音识别准确拾音,更是难上加难。这时利用无声语音识别就会轻松很多,不仅可以准确表达信息,也能让一些处于这种场合的工作人员戴上隔音耳塞保护自己的听力。

实际上目前在欧洲一些型号的战斗机中,就因为机舱内噪音巨大、飞行员之间无法沟通,已经应用上了EMG信号无声语音识别技术。

当然,目前相比语音识别技术、甚至相比唇语语音识别,无声语音识别技术的发展阶段还很初级,应用效率也不高。

实际上无声语音识别是一项典型的“美好而无用”的AI技术,它既完美体现了一系列技术的排列组合,例如EMG信号无声语音识别所体现出的AI与神经学的结合;又在应用上极大程度的受限,即使在一些声音难以传播的场景下,也要考虑计算条件、识别语音后信息再传递的媒介,更不用提复杂的数据收集工作了。

但我们有理由相信,在未来AI技术越来越普及化、应用成本越来越低时,总会出现一些极端场景应用上这些看似无用的技术——也许未来有一天,战斗机的控制也要应用上语音交互呢?

推荐阅读

史海拾趣

Echelon_Corporation公司的发展小趣事

为了更好地服务全球客户,Echelon实施了全球化战略。公司不仅在美国加州设立了总部,还在欧洲和亚洲的多个国家和地区设立了办事处,包括中国、法国、德国、意大利、香港、日本、韩国、荷兰及英国等。这些办事处的建立,使得Echelon能够更好地了解当地市场需求和客户需求,并提供更加及时和专业的服务。

泰科天润(GPT)公司的发展小趣事

Echelon Corporation于1988年在美国加州成立,其初衷是开发和推广先进的通信和控制技术。在成立初期,Echelon便推出了其标志性的LonWorks控制网络平台。该平台采用了开放的通信协议,使得不同厂商的设备可以无缝连接和通信,为工业自动化、建筑自动化等领域带来了革命性的变化。LonWorks平台的成功推出,为Echelon在电子行业奠定了坚实的基础。

得倍(DBIC)公司的发展小趣事

在激烈的市场竞争中,倍(DBIC)公司不断优化供应链管理,降低成本,提高效率。公司与全球多家供应商建立了长期稳定的合作关系,确保原材料的稳定供应。同时,倍(DBIC)公司还加强了对生产过程的监控和管理,确保产品质量和交货期。这些措施使倍(DBIC)公司在成本控制和交付能力方面具备了明显的竞争优势。

ETC公司的发展小趣事

在ETC领域,速通科技始终保持着技术创新的步伐。公司不断投入研发资源,致力于提高ETC系统的性能、稳定性和安全性。经过多年的努力,速通科技成功研发出了基于国标ETC的自由流收费技术,并获得了多项发明专利。这一技术的推出,大大提高了车辆的通行效率,减少了交通拥堵现象。

安谱隆(Ampleon)公司的发展小趣事

在安谱隆的发展历程中,资本市场对其一直保持着高度的关注。然而,其“安家”之路却并不平坦。2017年,奥瑞德曾有意收购安谱隆,但由于资金问题,这桩收购最终未能成行。2018年,旋极信息也计划收购安谱隆,但同样未能成功。这些波折反映了资本市场对安谱隆价值的认可,但也暴露出安谱隆在寻找合适买家方面所面临的挑战。

苏州锋驰(Feng)公司的发展小趣事
通过调整电阻来实现稳流控制,适用于较小的电流范围。其优点是电路简单、噪声低,但效率相对较低,特别是在输入输出电压差较大的情况下。

问答坊 | AI 解惑

关于嵌入式系统--献给热爱此道的初学者们

如何学习嵌入式系统(基于ARM平台) 前言    网上看到众多网友都问了关于嵌入式系统方面的很多问题,很多都可在这里找到答案,希望我的这篇文章能给他们以启发。也请大家不要轻易转载。 一、嵌入式系统的概念     &n ...…

查看全部问答>

Linux V0.11 源程序

能把Linux V0.11移到AT89S52上吗? 本来我有一份Linux V0.11完全注解,想一起打包发过来但我没找到.…

查看全部问答>

热招进行中- LSI 上海研发中心

Please submit your Resume to China.Recruiting@lsi.com 1)  Analog Design Engineer                               D ...…

查看全部问答>

GPRS问题

GPRS通信: S3C2410+ucos-ii操作系统+lwip协议,实现通过GPRS网络将数据传送到远程控制终端,请问由于我要将数据通过GPRS模块MC35I上传到GPRS网络,在经过INTERNET网传输到远程主机,那么我还需要初始化网卡CS8900A吗?…

查看全部问答>

3D电视:赤裸的商业利益诉求?

本帖最后由 jameswangsynnex 于 2015-3-3 20:03 编辑 几年来,我已经从一个技术至上主义者变成技术节制主义者。面对最近轮番炒作的3D电影、3D电视时,我没有任何激动。虽然调研机构DisplaySearch说,2008年3D电视出货70 万台,10年后是这样的:3D ...…

查看全部问答>

新手求助,用画刷画图的问题

    hBr = (HBRUSH) GetStockObject (BLACK_BRUSH);     // hBr = (HBRUSH) GetStockObject (RGB(255,0,0)); 把BLACK_BRUSH改成RGB(255,0,0)为什么不行呢???     hOldBr = (HBRUSH) SelectObject (hdc, hBr); ...…

查看全部问答>

申请试用开发板

计划用在新电源的控制上 设备类型:逆变电源 主要参数:200kw/50KHZ…

查看全部问答>

POS机套件 有人在做吗?

很想做,但是能力。。有人在做吗?我有一摞子问题…

查看全部问答>

求友晶公司的TRDB-D5M

现在有一块DE2-70板子,求一块闲置的友晶公司的TRDB-D5M,有的带价。…

查看全部问答>