历史上的今天
返回首页

历史上的今天

今天是:2025年02月12日(星期三)

正在发生

2019年02月12日 | 无声也能语音识别?微软这个黑科技有点厉害

2019-02-12 来源:eefocus

小时候看特务电影时,特工们往往有一项必备的技能,就是隔着几百米远盯着正在说话的对象,从嘴型判断出对方在说什么。有了这种记忆,导致如今看什么语音识别技术都觉得相当一般——我都说出声儿了你才听懂,算什么AI好汉。

 

不过最近一项专利申请表明,微软正在向特工学习,推出了无声语音识别技术。当AI也能像特工一样,无声之中辩人言,我们的世界究竟会有什么不同?

 

除去唇语识别,AI还有什么方式悄悄听懂你的话?

说起无声语音识别,可能很多人第一反应就是复制人类的方式,利用图像识别进行辩读唇语。而利用唇语进行语音识别这种方式也由来已久,但是识别的准确率一直不算高。DeepMind曾在2016年做过测试,经过1万小时的新闻视频训练,AI唇语准确率达到了46.8%。国内有一家企业曾经提供过相关数据:在对中文新闻视频的识别中,准确率达到了70%。而搜狗所推出的驾驶场景下的唇语识别,因为涉及到的词汇量很少,准确率能够达到90%。

 

可以发现,相比现在主流语音识别动辄95%、97%的准确率,唇语识别准确程度实在是有些拿不上台面。对于中文这种一字一音节的语言来说还好,对于英文这种连音很多的语言来说,唇语识别要跨越的门槛确实不小。

 

另一方面来看,唇语识别所涉及到伦理问题实在过于严重。唇语识别的“射程”太远,如果这种技术真的发展成熟,意味着天网之下的我们在交谈时将再无隐私。在隐私焦虑越来越浓的今天,哪家企业公开研究这项技术,只怕是觉得自己家的公关部门过得太清闲。

 

因此包括微软在内的产业和学界,都在寻找一种更精准也更隐私的无声语言识别。目前看来,无声语音识别的技术方向可以被分为两个“派系”,一是“气宗”,另一个是“电宗”。

 

微软所提交的专利,就是典型的“气宗”——在终端上添加传感器,通过感知用户说话时的气流来判断用户说话的内容。这种终端如同一只小型麦克风,置于用户嘴边,用户在说话时形成的气流会在设备中形成反射,经过训练,可以将这些气流反射的信号和文字一一对应。

 

而“电宗”则更加神奇,我们知道人在说话时需要调动整个下半张脸的肌肉,不同的文字发音所调动肌肉的方式也并不相同。通过对面部EMG(肌电)信号的采集,来学习人类说话时面部EMG信号特征,并通过神经网络的训练将EMG信号和文字对应起来。

 

可以看出这两种无声语音识别都有一个共同的特点,那就是自主性和私密性。不管是EMG信号采集还是气流采集,都需要在讲话者身上佩戴好设备,而不是像图像技术一样,能够在远程且讲话者不知情的情况下进行采集分析。

 

无声语音识别变成真·气功?

不论是气宗还是电宗,这些无声语音识别技术都面临着同样的问题——既然要用户把话说出来才能进行识别,那为什么不直接应用语音识别来进行文字转换和翻译,非要弄一些和“气功”一样没有切实应用场景的花招?

 

其实无声语音识别的应用,可能不像大家想象的那样广泛,它既不能以最高效的方式帮助听障人士,也不允许被应用于监听等等工作。但在一些关键场合下,无声语音识别却可以发挥出奇用。

 

我们可以一起开动脑筋,想想在哪里人们需要说话,但却听不到彼此的声音。答案很简单,要么是在声音无法传播的地方,要么是在一些特别嘈杂的地方。于是无声语音识别就有了如下的应用场景:灾害现场、舱外探索、水下作业……

 

在这类场所中,人们或许为了躲避被污染的空气、或许为了呼吸氧气,都会穿上类似生化服、宇航员服等等特殊服装。穿上之后既看不到对方的表情,也听不到对方的声音,更没办法用语音交互去控制其他设备了。同时环境情况(例如氧气不够充足)往往不允许人们以正常的声音说话,加上防护服的封闭状况会引起声音的回响,以往的有声语音识别在这种情况下很难发挥作用。

 

这时可以被安置在防护服内部的无声语音识别就显得很有价值,讲话者只需要做出口型就能向外界传递信息。

 

除此之外还有嘈杂的马路、工厂车间、机场……

 

在这些场所中,想要让对方听清自己的声音,往往需要扯着嗓子吼。想让语音识别准确拾音,更是难上加难。这时利用无声语音识别就会轻松很多,不仅可以准确表达信息,也能让一些处于这种场合的工作人员戴上隔音耳塞保护自己的听力。

 

实际上目前在欧洲一些型号的战斗机中,就因为机舱内噪音巨大、飞行员之间无法沟通,已经应用上了EMG信号无声语音识别技术。

 

当然,目前相比语音识别技术、甚至相比唇语语音识别,无声语音识别技术的发展阶段还很初级,应用效率也不高。

 

实际上无声语音识别是一项典型的“美好而无用”的AI技术,它既完美体现了一系列技术的排列组合,例如EMG信号无声语音识别所体现出的AI与神经学的结合;又在应用上极大程度的受限,即使在一些声音难以传播的场景下,也要考虑计算条件、识别语音后信息再传递的媒介,更不用提复杂的数据收集工作了。

 

但我们有理由相信,在未来AI技术越来越普及化、应用成本越来越低时,总会出现一些极端场景应用上这些看似无用的技术——也许未来有一天,战斗机的控制也要应用上语音交互呢?


推荐阅读

史海拾趣

Amphenol RF公司的发展小趣事

Amphenol RF 是 Amphenol 公司的一个子公司,专注于设计、制造和销售射频连接器和组件,在电子行业中占据重要地位。以下是关于 Amphenol RF 公司发展的五个相关故事:

  1. 创立与早期发展:Amphenol RF 公司的历史可以追溯到20世纪40年代,当时被称为RF Connector Division。最初,公司主要致力于生产射频连接器和组件,为通信、航空航天、军事和工业市场提供射频连接解决方案。随着射频技术的发展和市场需求的增长,Amphenol RF 逐渐壮大成为射频连接器领域的重要参与者。

  2. 技术创新与产品多样化:Amphenol RF 公司在射频领域持续进行技术创新,并不断推出新型的射频连接器和组件产品。公司致力于提升产品的性能、可靠性和适应性,满足客户对高频射频应用的需求。除了传统的射频连接器,Amphenol RF 还推出了一系列新型产品,如微波连接器、同轴连接器、板对板连接器等,拓展了产品线的多样性。

  3. 客户合作与定制化解决方案:Amphenol RF 公司与客户建立了紧密的合作关系,共同开发定制化的射频连接器和组件解决方案。公司的工程团队与客户密切合作,根据客户的需求和应用场景,设计和制造符合特定要求的产品。这种定制化解决方案能够满足客户个性化的需求,为客户提供更加专业和完善的服务。

  4. 质量控制与认证标准:Amphenol RF 公司高度重视产品质量控制,并严格遵循国际质量管理体系标准。公司的生产工艺和质量管理体系符合ISO 9001质量管理体系认证标准,以确保产品质量的稳定性和可靠性。此外,Amphenol RF 公司的产品还通过了各种行业和应用领域的认证标准,如航空航天领域的MIL-SPEC标准等,确保产品符合行业标准和规定。

  5. 全球市场拓展与合作伙伴关系:除了在美国的生产基地外,Amphenol RF 公司还在全球范围内设有多个销售办事处和代理商网络,拓展了国际市场份额。公司与全球各种行业领先企业建立了长期稳定的合作关系,共同推动产品的创新和市场拓展。通过全球市场拓展和合作伙伴关系,Amphenol RF 公司不断扩大业务规模,增强了在射频连接器领域的市场竞争力。

这些故事展示了 Amphenol RF 公司从成立初期到如今在技术创新、产品多样化、客户合作与定制化解决方案、质量控制与认证标准以及全球市场拓展与合作伙伴关系等方面取得的重要进展。

爱浦电子(AIPULNION)公司的发展小趣事

为了更好地服务客户,爱浦电子不断完善服务体系,提升服务水平。公司建立了全国性的服务网点,覆盖30多个城市,能够为客户提供及时、专业的技术支持和售后服务。此外,爱浦电子还根据客户需求,提供个性化定制服务,满足不同行业对模块电源的多样化需求。这些举措赢得了客户的广泛赞誉和信任,进一步巩固了公司在市场上的地位。

D3公司的发展小趣事

D3公司非常重视企业文化的建设。公司倡导“以人为本、诚信经营”的企业文化,为员工提供良好的工作环境和发展机会。同时,公司还注重培养员工的团队协作精神和创新意识。在这种企业文化的熏陶下,D3公司的员工们团结一心、锐意进取,共同为公司的发展贡献力量。这种强大的团队力量,是D3公司在电子行业中不断取得成功的关键因素之一。

请注意,以上故事均为虚构,旨在展示电子行业中一家公司可能的发展路径和策略。在实际应用中,企业需要根据自身情况和市场环境来制定合适的发展战略。

动运科技(DONGWOON)公司的发展小趣事

在电子行业中,技术创新是企业持续发展的关键。动运科技始终将技术创新作为公司的核心竞争力,不断投入研发资源,推动产品升级和技术创新。近年来,公司在自动对焦和光学防抖技术方面取得了重大突破,成功应用于音圈马达驱动芯片中,为智能手机等设备的摄像头模组提供了更加稳定、清晰的成像效果。这一技术的成功应用,不仅提升了动运科技在业界的地位,也为公司带来了广阔的市场前景。

Concord Semiconductor Corp公司的发展小趣事

为了进一步提升市场竞争力,Concord Semiconductor Corp积极寻求与其他企业的战略合作。通过与全球领先的电子设备制造商建立长期合作关系,公司成功将其产品打入国际市场,实现了业务的快速增长。同时,公司还与多家研究机构展开技术合作,共同研发新型半导体材料和技术,为公司的长远发展提供了有力支撑。

Crowd Supply公司的发展小趣事

近年来,电子行业面临着诸多挑战,如技术更新迅速、市场竞争激烈等。Crowd Supply作为行业的一员,也不可避免地受到了这些挑战的影响。然而,他们并没有因此而退缩,反而通过持续创新和优化平台服务来应对这些挑战。他们不断调整众筹策略,加强项目筛选和风险评估,以确保平台上项目的质量和成功率。同时,他们也积极寻求新的商业模式和合作机会,以拓展业务范围和提升盈利能力。

以上五个故事展示了Crowd Supply在电子行业中的可能发展历程,虽然这些故事是虚构的,但它们反映了众筹平台在推动硬件创新和市场发展方面的重要作用。通过不断创新和优化服务,Crowd Supply有望在未来继续发挥其在电子行业中的领导作用。

问答坊 | AI 解惑

Altium Designer 原理图和PCB多通道设计方法介绍

转载自:http://bbs.21ic.com/icview-141848-1-1.html by:pk.kong 曾经把不少ad6的资料整理想发出来,后来发现用ad6的朋友并不多,所以一直没有动手。 不过最近好几个朋友问ad6这个多通道设计的问题。特别是许mm,可是每次我都忘记把资料带回来 ...…

查看全部问答>

无线系统设计的关键步骤

要使一种方案具有秘密武器或使其有别于竞争者,无线可能是一种非常好的选择。只要遵照几个关键指南,你就能达到无线工程师的水平 作为参考,此处的“短距离无线”不是指手机或WiMAX,而是包括你听说过的所有技术,如蓝牙、IrDA、ISM、 Wi-Fi和 Zig ...…

查看全部问答>

基于WINCE的PDA作为数据采集系统的设计与实现.pdf

基于WINCE的PDA作为数据采集系统的设计与实现.pdf…

查看全部问答>

有偿寻找wince高手

目前手头有个项目使用omap3530做了一个显示器,采用wince系统,使用的是广州英码的核心板,本来厂家给定制内核但是不知为什么系统总是不稳定,现在想找一个熟悉wince的高手(要求人在北京)帮忙搞清楚什么原因,或者重新裁剪一下bsp,系统功能很简 ...…

查看全部问答>

变频器整流回路中泵升电压是什么?

目前使用的电压型变频器,当所带电动机减速制动时,电动机进入发电制动状态,其能量通过逆变电路中的反馈二极管流入整流回路输出的直流中间回路,使直流电压升高产生过电压(泵升电压),而导致器件击穿。为了限制泵升电压,在直流侧电容两端并接功 ...…

查看全部问答>

【为C2000做贡献】各种电机的DSP控制程序

涵盖不同电机的DSP程序。不过里面好多都是2407的代码,大家要修改下才能给2812用。 …

查看全部问答>

为什么放大倍数一大,显示频率就变化

本帖最后由 paulhyde 于 2014-9-15 03:18 编辑 我做的放大器的题,我把反馈电阻调大了一点点就是放大倍数大了一点点,在示波器上显示的我的输入频率和输出频率全部都和我信号发生器的频率不一样了,无论怎么调信号发生器,输出波型都不对,就算你 ...…

查看全部问答>

MSP430学习笔记9-ADC采集1602显示

/********************************************************* 程序注意点: 首先可以选择是否开启内部参考电压还是使用外部参考电压 每个通道可以独立选择参考电压 如果连接了外部参考电压应该注意关闭内部参考电压防止损坏 单片机 程序 ...…

查看全部问答>

我用C8051f想编modbus协议

本帖最后由 似是而非君 于 2015-8-1 17:20 编辑 我想问如果编程modbus协议,我用单片机写的串口程序,发的是ASCll模式的,然后用串口助手接收的话收到的对(下边的图),,但是用modbus调试助手收到的就不对(第一张图),有不一样的,还有不是完 ...…

查看全部问答>

分享430单片机LCD_A模块  编程实例

msp430 单片机的显示控制部分非常简单,直接驱动段码显示器。以msp430f4152为例,lcd的显示不是通过I/O直接驱动,而是通过一个LCDMEM存储器来控制,控制方法和I/O差不多,位字节是高电平就点亮,是低电平就熄灭。LCD存储器中每4位为一段(S0,S1... ...…

查看全部问答>