历史上的今天
今天是:2025年01月18日(星期六)
2018年01月18日 | 立体声音频如临现场 头部追踪/强化语音清晰度
2018-01-18 来源:新电子
如何在有噪音或其他干扰的情况下,提高说话者的通讯语音清晰度,已有多项研究进行。 过去几十年来,众所周知的是,在真实情境中,人类拥有将注意力集中于语音和声音,并将它们与其他语音源分离的能力,这种现象被称为「鸡尾酒会效应」。
研究已经发现,处理有方向性信息的能力,是运用鸡尾酒会效应的关键要素,而人类是透过认知和感知延迟,以及双耳间的音量差来进行处理的。
近年来,立体声耳机在Voice-over-IP(VoIP)和其他通讯领域中,已经是十分常见的硬件器材,这也引起越来越多人投入研究,试图找出在双耳声道中增强语音清晰度的方法。
利用摄影机的人脸辨识或惯性传感器(IMU)来实现头部追踪,透过头部位置和用户的方未来同步双声道语音处理,是一种提升语音清晰度的有效方法。 本文将介绍威富思(Waves)研发的Waves NX实时双耳声道工具,该工具能将单声道音源仿真再生成有方向性的信息,并能够在双耳听觉声道再现已经崁入在立体声或多声道音频中的方向性信息。
透过低延迟、高撷取速率的头部追踪,Waves NX的用户能够利用有意识和无意识的头部运动,更精准的探索虚拟世界。 不过,这项技术不仅能应用在VR上,同时也可提升立体声耳机的语音清晰度。
根据产业惯例,本文所提到的语音识别门坎(SRT),即听力受测者能够听懂50%话语内容的最小声音强度数据均为负值,单位是分贝(dB)。
头部追踪可有效改善SRT
在以色列本古瑞安大学(BGU)的一篇研究论文中,利用HIST主观测试检验了在多种不同测试情境下,Waves NX所能发挥作用。 该研究主要聚焦于声音和干扰音在进行双耳间播放和空间化的情境下,Waves NX所能带来的语音清晰度提升效果。 该研究希望用户透过将头部移动到与听觉讯号接收位置相对应的位置,来使用Waves NX的头部追踪功能。
该研究中最显著的数据显示,藉由Waves NX,SRT值可从-1dB提升到-8dB,当两耳都能听到干扰音(单声道),且声音为两耳分听(双耳声道)时,获得的结果最为显著(-8dB)。 即使这两个讯号都是双耳声道播放时,经过Waves NX处理后,统计数据也显示能获得-1dB的结果。
图1是BGU实验中Waves NX的SRT数值表现。 测试组态1的数据是控制组,语音和干扰都是两耳分听的,组态2~4则是实验组。 测试数据显示,采用Waves NX后,SRT数值均有所降低。 其中,组态4是声音和干扰都采取两耳分听,并且在无定向分离的情况下进行重现。 数据显示,即便在这个条件下,SRT依然可以降低。
目前只有BGU针对组态4这种条件下的双耳声场重现进行研究,据作者所知,截至本文完成之际,除了Waves NX,还没有其他工具能够用来测试或还原双耳声道原声。
与其他文献中的实验相比,Waves NX所获得的效果可能归功于其能够精准地追踪用户的头部方向。 此一功能让实验对象凭借自己的直觉,透过调整头部方向,以最舒服的头部方向面对虚拟音源,并利用无意间的头部移动来移除模糊方向,从而自然地集中注意力于空间中的音源。
此前有研究表示,当音源和干扰在水平面上被90度分离时,两者间的空间分离能够大大增加声音辨识度,效果可达6dB。 音源和干扰在空间上的分离,以BGU于前述研究所发现,有关于任何音源方向性的辨别,均为VoIP通话时重要的使用条件。
善用鸡尾酒会效应改善语音清晰度
早在1953年,就有人研究和纪录电话会议中,对多个声音频号采用双耳声道声音还原的优点,而这些优点也在多项研究设定的正常及虚拟环境中得以重现。 所有研究都显示,在会议中,透过双耳声场重现以及运用头部相关传输函数(HRTF)及声音仿真音频处理技术来增加清晰度,都能达到音源讯号空间分离的效果,这种现象被称为鸡尾酒会效应。
在噪音、多人谈话与HRTF作用下,要改进语音识别的清晰度,是根据谈话者之间的角间距及空间分离所决定。 Bronkhorst与Plomp在1992年发表的研究结果显示,50%双耳声道音场重现应用能将SRT值增加-1.5dB~-8dB。 这些结果根据噪音、谈话者人数及其位置而不同。 Ricard与Meirs在1994年进行的研究也获得类似的结果,当干扰为白噪音且位于双耳间的前方位置时,清晰度增加+5dB。 还有研究发现,若将不同音源进行三度空间分离,SRT值还可再改善-3.4dB。
Waves NX能在用户周围的虚空间将音源定位到任意位置,此一功能使平面空间和立体空间都能完全利用鸡尾酒会效果。 图2显示在鸡尾酒会设定下,使用Waves NX与单声道电话会议方案做比较。
图2-1是在无空间化、具体化和头部追踪的电话会议中,用户所感知到的声场。 在这个条件下,用户所听到的声音来源位于头部内部,且不能利用鸡尾酒会效果。
图2-2则是透过Waves NX将声音空间化和具体化后,用户所感知的声场。 这让用户得以完全利用鸡尾酒会效应,并透过Waves NX的头部追踪功能,将注意力集中于不同音源上。
Waves Nx创造近似真实世界对谈效果
透过多项研究和学术报告可知,单一音源与噪音干扰之间的空间分离能够降低SRT,效果可达-12dB,而应用Waves Nx多音源SRT可改进到-8dB。 另外,最近BGU对Waves Nx的一项研究表明,即便没有引入明确的方向性分离,SRT还是能改善-1dB~-8dB。
Waves Nx是现代化的软件工具,可充分利用鸡尾酒会效应,因此当使用一般立体声耳机时,可以带来原音重现的效果。 该工具还能将多个语音源进行3D分离,进一步增加会议中的语音清晰度。
Waves Nx使用精确的头部追踪技术,而其语音处理的优势来自于静态空间分离以及与头部动向一致的声场讯息,让用户本能地将注意力放在指定的空间化语音,其机制与现实世界的面对面谈话相似。
(本文作者均任职于威富思)
史海拾趣
|
最近在wince下使用了dm9000a网卡,现在发现在主机ping开发板时会出现ping个几祯就会出现1祯延时很高(秒级的),其他都在1,2ms左右,查了好久没找到原因,请各位大虾帮忙分析下原因可能在哪里。驱动用的是davicom提供的程序。… 查看全部问答> |
|
linux诞生于386平台,为什么在嵌入式市场中,基于ARM的平台却占了大半壁江山? ARM相比于386平台,有哪些优势? 新手问题,希望答案稍微详细点,谢谢!… 查看全部问答> |
|
wince5和wince6下的3G\\CDMA\\EVDO驱动已经完成了,我用串口工具已经能够发送指令, 并可以拨打电话,发送短信等。 虚拟了多个串口,第一个串口作为拨号上网串口,我建立连接之后,选择此端口, 不能正常连接上互联网 我估计是Unimodem的初始 ...… 查看全部问答> |
|
大家好。瞬联公司杭州分公司现在有新职位发布了,可以内推。瞬联公司主要给诺基亚西门子,摩托罗拉作外包,待遇薪酬10万到20万,当然可以更高。 公司是美企,虽然是外包公司,但是大家可以baidu,google一下,评价还是很高的。 以下是刚发布的职 ...… 查看全部问答> |
|
哪位大大帮忙看看,我将ucos移植到了lpc2292上,在工程里建了两个任务,在仿真的时候发现,两个任务在运行一次之后就不在进行任务切换了,而是移植停留在空闲任务中,先前我还以为是系统没有时钟节拍呢,因为我在任务中是利用ucos里面的演示函数做 ...… 查看全部问答> |
|
keil/ucos任务函数:运行到任务函数内部时,sp的值会不会变 执行这个函数内部时,sp的值会不会变化?sp的值会不会,因为给局部变量赋值,或操作局部变量而变化?void Task1(void *nouse) reentrant{ unsigned char Str0[] = \"Welcome, uCOS-II is Start !\\r\\n\"; unsigned char S ...… 查看全部问答> |




