历史上的今天
返回首页

历史上的今天

今天是:2025年01月18日(星期六)

正在发生

2018年01月18日 | 立体声音频如临现场 头部追踪/强化语音清晰度

2018-01-18 来源:新电子

如何在有噪音或其他干扰的情况下,提高说话者的通讯语音清晰度,已有多项研究进行。 过去几十年来,众所周知的是,在真实情境中,人类拥有将注意力集中于语音和声音,并将它们与其他语音源分离的能力,这种现象被称为「鸡尾酒会效应」。

研究已经发现,处理有方向性信息的能力,是运用鸡尾酒会效应的关键要素,而人类是透过认知和感知延迟,以及双耳间的音量差来进行处理的。

近年来,立体声耳机在Voice-over-IP(VoIP)和其他通讯领域中,已经是十分常见的硬件器材,这也引起越来越多人投入研究,试图找出在双耳声道中增强语音清晰度的方法。

利用摄影机的人脸辨识或惯性传感器(IMU)来实现头部追踪,透过头部位置和用户的方未来同步双声道语音处理,是一种提升语音清晰度的有效方法。 本文将介绍威富思(Waves)研发的Waves NX实时双耳声道工具,该工具能将单声道音源仿真再生成有方向性的信息,并能够在双耳听觉声道再现已经崁入在立体声或多声道音频中的方向性信息。

透过低延迟、高撷取速率的头部追踪,Waves NX的用户能够利用有意识和无意识的头部运动,更精准的探索虚拟世界。 不过,这项技术不仅能应用在VR上,同时也可提升立体声耳机的语音清晰度。

根据产业惯例,本文所提到的语音识别门坎(SRT),即听力受测者能够听懂50%话语内容的最小声音强度数据均为负值,单位是分贝(dB)。

头部追踪可有效改善SRT

在以色列本古瑞安大学(BGU)的一篇研究论文中,利用HIST主观测试检验了在多种不同测试情境下,Waves NX所能发挥作用。 该研究主要聚焦于声音和干扰音在进行双耳间播放和空间化的情境下,Waves NX所能带来的语音清晰度提升效果。 该研究希望用户透过将头部移动到与听觉讯号接收位置相对应的位置,来使用Waves NX的头部追踪功能。

该研究中最显著的数据显示,藉由Waves NX,SRT值可从-1dB提升到-8dB,当两耳都能听到干扰音(单声道),且声音为两耳分听(双耳声道)时,获得的结果最为显著(-8dB)。 即使这两个讯号都是双耳声道播放时,经过Waves NX处理后,统计数据也显示能获得-1dB的结果。

图1是BGU实验中Waves NX的SRT数值表现。 测试组态1的数据是控制组,语音和干扰都是两耳分听的,组态2~4则是实验组。 测试数据显示,采用Waves NX后,SRT数值均有所降低。 其中,组态4是声音和干扰都采取两耳分听,并且在无定向分离的情况下进行重现。 数据显示,即便在这个条件下,SRT依然可以降低。

目前只有BGU针对组态4这种条件下的双耳声场重现进行研究,据作者所知,截至本文完成之际,除了Waves NX,还没有其他工具能够用来测试或还原双耳声道原声。

与其他文献中的实验相比,Waves NX所获得的效果可能归功于其能够精准地追踪用户的头部方向。 此一功能让实验对象凭借自己的直觉,透过调整头部方向,以最舒服的头部方向面对虚拟音源,并利用无意间的头部移动来移除模糊方向,从而自然地集中注意力于空间中的音源。

此前有研究表示,当音源和干扰在水平面上被90度分离时,两者间的空间分离能够大大增加声音辨识度,效果可达6dB。 音源和干扰在空间上的分离,以BGU于前述研究所发现,有关于任何音源方向性的辨别,均为VoIP通话时重要的使用条件。

善用鸡尾酒会效应改善语音清晰度

早在1953年,就有人研究和纪录电话会议中,对多个声音频号采用双耳声道声音还原的优点,而这些优点也在多项研究设定的正常及虚拟环境中得以重现。 所有研究都显示,在会议中,透过双耳声场重现以及运用头部相关传输函数(HRTF)及声音仿真音频处理技术来增加清晰度,都能达到音源讯号空间分离的效果,这种现象被称为鸡尾酒会效应。

在噪音、多人谈话与HRTF作用下,要改进语音识别的清晰度,是根据谈话者之间的角间距及空间分离所决定。 Bronkhorst与Plomp在1992年发表的研究结果显示,50%双耳声道音场重现应用能将SRT值增加-1.5dB~-8dB。 这些结果根据噪音、谈话者人数及其位置而不同。 Ricard与Meirs在1994年进行的研究也获得类似的结果,当干扰为白噪音且位于双耳间的前方位置时,清晰度增加+5dB。 还有研究发现,若将不同音源进行三度空间分离,SRT值还可再改善-3.4dB。

Waves NX能在用户周围的虚空间将音源定位到任意位置,此一功能使平面空间和立体空间都能完全利用鸡尾酒会效果。 图2显示在鸡尾酒会设定下,使用Waves NX与单声道电话会议方案做比较。

图2-1是在无空间化、具体化和头部追踪的电话会议中,用户所感知到的声场。 在这个条件下,用户所听到的声音来源位于头部内部,且不能利用鸡尾酒会效果。

图2-2则是透过Waves NX将声音空间化和具体化后,用户所感知的声场。 这让用户得以完全利用鸡尾酒会效应,并透过Waves NX的头部追踪功能,将注意力集中于不同音源上。

Waves Nx创造近似真实世界对谈效果

透过多项研究和学术报告可知,单一音源与噪音干扰之间的空间分离能够降低SRT,效果可达-12dB,而应用Waves Nx多音源SRT可改进到-8dB。 另外,最近BGU对Waves Nx的一项研究表明,即便没有引入明确的方向性分离,SRT还是能改善-1dB~-8dB。

Waves Nx是现代化的软件工具,可充分利用鸡尾酒会效应,因此当使用一般立体声耳机时,可以带来原音重现的效果。 该工具还能将多个语音源进行3D分离,进一步增加会议中的语音清晰度。

Waves Nx使用精确的头部追踪技术,而其语音处理的优势来自于静态空间分离以及与头部动向一致的声场讯息,让用户本能地将注意力放在指定的空间化语音,其机制与现实世界的面对面谈话相似。

(本文作者均任职于威富思)

推荐阅读

史海拾趣

Fedco_Batteries公司的发展小趣事

面对日新月异的市场需求和技术变革,Fedco_Batteries始终保持创新的步伐。公司加大了研发投入,不断推出新型电池产品,满足客户的多样化需求。同时,公司还积极探索新的应用领域,将电池技术应用于更多领域,如新能源汽车、智能家居等。这种创新驱动的发展战略,让Fedco_Batteries在行业中始终保持领先地位。

EOS POWER INDIA Pvt公司的发展小趣事

随着市场的不断发展和客户需求的变化,EOS意识到只有不断创新才能保持竞争力。因此,公司加大了对研发的投入,引进了一批高素质的研发人才。经过数年的努力,EOS成功研发出了一系列高性能、高可靠性的电源产品,如交钥匙电源解决方案、定制电源等。这些产品不仅满足了客户的多样化需求,还帮助EOS在市场上获得了更多的份额。

Gang Song Electronics Co Ltd公司的发展小趣事

并购完成后,GainSpan的技术与Telit的物联网平台实现了深度融合。Telit利用GainSpan的低功耗WiFi模组技术,推出了更加高效、节能的物联网解决方案。这些方案不仅降低了物联网设备的能耗,还延长了设备的使用寿命,提高了整体系统的稳定性和可靠性。同时,GainSpan的技术也为Telit的物联网平台带来了更多创新应用的可能性。

Hitano Enterprise Corp公司的发展小趣事

在加入Telit后,GainSpan的技术和产品迅速在全球范围内得到推广和应用。Telit凭借其强大的市场网络和品牌影响力,将GainSpan的低功耗WiFi模组带到了更多的国家和地区。特别是在北美、欧洲和亚洲等物联网市场发展迅速的地区,GainSpan的技术和产品更是成为了众多企业和项目的首选。通过全球化布局,Telit进一步巩固了其在物联网市场的领先地位。

晶群科技(Gem-micro)公司的发展小趣事

在加入Telit后,GainSpan的技术和产品迅速在全球范围内得到推广和应用。Telit凭借其强大的市场网络和品牌影响力,将GainSpan的低功耗WiFi模组带到了更多的国家和地区。特别是在北美、欧洲和亚洲等物联网市场发展迅速的地区,GainSpan的技术和产品更是成为了众多企业和项目的首选。通过全球化布局,Telit进一步巩固了其在物联网市场的领先地位。

Gaomi Xinghe Electronics公司的发展小趣事

背景:为了加速全球化进程和提升企业综合实力,Galaxy开始寻求与国际知名企业的合作与并购机会。

行动:公司通过多方面的谈判和协商,成功与某国际知名电子企业达成了战略合作协议。双方将在产品研发、生产制造、市场销售等多个领域展开深度合作。同时,Galaxy还积极参与国际并购活动,通过收购具有核心技术和市场优势的企业,进一步拓宽业务范围和提升竞争力。

成果:这些国际化合作与并购举措为Galaxy带来了先进的技术和管理经验,极大地提升了公司的整体实力和市场地位。同时,也为公司的全球化战略提供了强有力的支撑和保障。

请注意,由于直接名为Galaxy (Bel)的公司信息较为有限,上述故事均基于电子行业内的普遍趋势和假设性情境构建而成。在实际情况下,不同公司的具体发展历程和战略决策可能有所不同。

问答坊 | AI 解惑

PLC

有没有做PLC设计啊,正在做这方面的毕业设计,需要大家的指点啊!…

查看全部问答>

智能监控机器人

本帖最后由 paulhyde 于 2014-9-15 09:29 编辑 智能监控机器人  …

查看全部问答>

关于dm9000a延时的问题

最近在wince下使用了dm9000a网卡,现在发现在主机ping开发板时会出现ping个几祯就会出现1祯延时很高(秒级的),其他都在1,2ms左右,查了好久没找到原因,请各位大虾帮忙分析下原因可能在哪里。驱动用的是davicom提供的程序。…

查看全部问答>

问个问题,关于平台选择

linux诞生于386平台,为什么在嵌入式市场中,基于ARM的平台却占了大半壁江山? ARM相比于386平台,有哪些优势? 新手问题,希望答案稍微详细点,谢谢!…

查看全部问答>

wince下3G\CDMA\EVDO拨号上网指令!

wince5和wince6下的3G\\CDMA\\EVDO驱动已经完成了,我用串口工具已经能够发送指令, 并可以拨打电话,发送短信等。 虚拟了多个串口,第一个串口作为拨号上网串口,我建立连接之后,选择此端口, 不能正常连接上互联网 我估计是Unimodem的初始 ...…

查看全部问答>

瞬联公司杭州分公司招聘,可以内推,年薪10-20万

大家好。瞬联公司杭州分公司现在有新职位发布了,可以内推。瞬联公司主要给诺基亚西门子,摩托罗拉作外包,待遇薪酬10万到20万,当然可以更高。 公司是美企,虽然是外包公司,但是大家可以baidu,google一下,评价还是很高的。 以下是刚发布的职 ...…

查看全部问答>

M5661C这个货有没有得代替的型号

M5661C是用在MP4机芯片的.因为市场上没什么货,请问有什么其他型号可以代替的没有…

查看全部问答>

移植ucos到lpc2292上出现任务无法切换

哪位大大帮忙看看,我将ucos移植到了lpc2292上,在工程里建了两个任务,在仿真的时候发现,两个任务在运行一次之后就不在进行任务切换了,而是移植停留在空闲任务中,先前我还以为是系统没有时钟节拍呢,因为我在任务中是利用ucos里面的演示函数做 ...…

查看全部问答>

keil/ucos任务函数:运行到任务函数内部时,sp的值会不会变

执行这个函数内部时,sp的值会不会变化?sp的值会不会,因为给局部变量赋值,或操作局部变量而变化?void Task1(void *nouse) reentrant{   unsigned char Str0[] = \"Welcome, uCOS-II is Start !\\r\\n\";   unsigned char S ...…

查看全部问答>

LCD12864

请教各位,ALTERA 的DE2学习板的扩展槽有没有足够大的电压或者电流驱动LCD12864?…

查看全部问答>