基于DSP的音频会议信号合成算法研究

2008-05-28 来源：电子技术应用

　　随着在数字信号处理(DSP)算法和芯片处理能力以及通信网络结构优化等方面的不断发展，现代化通信已经迅速普及。音频会议是众多通信系统的必备功能。有多个用户参与的音频会议，最简单的模式可以使用令牌控制下的互斥模式，使只有拥有发言权的那个与会者才可以讲话。在这种模式下，每个与会者某一时刻只能听到一路音频信号，这种“半双工”模式对于音频会议是不方便和不实际的。

　　真正的电话会议应当仿真多个与会者在一个会议室进行对话的情形。但是由于与会终端在物理上并不在一起，而每个终端只有一套音频输出设备(功放+音箱)，要同时传送给每个终端的音频流也只能使用一路信道。为使每个终端同时接收多个与会者的声音，必须采取多路音频合成方案。电话会议的特点是会场使用麦克风和扬声器，这种方式很容易造成回波干扰和啸叫。一般会议信号处理算法主要关注的也是这个方面，通常采用回波抵消的方法。但是这种方式对于会议信号的处理并不是最完善和有效的[1]。经过研究，采用有无声检测、归一化定标、自适应回波抵消算法合成技术则能够很真实地实现会议仿真效果。

　　1 会议信号合成实现方案

　　1.1 会议信号合成的合理性和必要性

　　音频流不象典型的视频流一样在空间/时间域占有惟一的位置，在同一时间和位置的信号元素叠加是没有任何意义的。但人耳可以感知在同一空间/时间播放多个音频流。这就是会议信号合成的合理性和必要性。通过会议信号的合成，将多路音频流的输入经过处理后，提供一个单输出信道输出合成音频。

　　1.2 会议信号合成的关键因素

　　当多个音频源在一个空间播放时，人耳听到的声波是各个声源声波的线性叠加，这正是模拟音频信号合成的基础。该事实表明数字化后的语音进行合成也应当使用线性叠加的方式。假设有n路输入音频流进行混音，Xi(t)是t时刻的第i路输入语音的线性样本，则t时刻的混音值为：

　　m(t)=ΣXi(t)，i=0,1,…,n-1

　　语音信号是连续的、时间要求严格的一种流媒体信号，它在时域上具有短时平稳的特征。对语音信号进行处理的一个基本概念就是对语音信号进行采样，得到的语音样本以缓冲区为单位进行处理，即对语音样本分帧。语音处理的很多概念都是基于语音帧的，比如有声/无声、能量、自相关等。语音帧的长度一般采用10～20ms。数字音频的重要参数是采样率，各路输入音频流合成的前提应当是使用相同的采样率。

　　随着需要合成的语音信道数量的增加，在不采取任何附加预防措施的情况下，一些并非会议有效信号(如声反馈和噪音)就会累积起来导致质量劣化,让人无法接受。特别是由本地扩声系统产生的电声反馈引起的回音造成了再生混响，其结果严重地影响了语音的清晰度。更为致命的是当声反馈非常严重时会产生自激，使整个通信系统无法正常工作。所以必须对每个终端的输入音频进行有无声检测和声反馈抑制处理。

　　语音合成时应注意求和样本的动态范围，这引出了归一化定标问题。数字音频波形理论定义，定标就是检查某个选定的帧，找到振幅峰值，并由此调整被选帧整体的音量，以便使允许的振幅值最大，且不会溢出。语音合成是对数字波形进行的一种编辑，尤其需要解决归一化定标问题。

　　2 会议信号合成关键技术研究

　　2.1 自适应回波抵消算法

　　数字回波抵消器的理论基础是自适应滤波器技术。随着DSP的快速发展，数字回波抵消器已能很好地在DSP上加以应用。在电话会议中产生回波的最主要原因是远端会议信号经本地扬声系统在室内产生的声场回馈至传声器引起回音造成的再生混响。

　　回波抵消器必须精确地估计回波路径特性并快速适应其变化，根据电话会议的特点，使用干涉抵消模型是最佳的方式。该模型是一个具有二个输入端的自适应滤波器，如图1所示。它将本地的传声器输出作为原始信号，而将本地扬声器的输入作为参考信号。经过自适应回波抵消处理后，能有效地抑制本地传声器的输出经室内声场馈至传声器的电声反馈(回音)，从而实现自适应声反馈(回音)的抵消。

　　回波抵消的核心就是自适应滤波器算法。常见的算法包括SDA算法和LMS算法。由于SDA算法中梯度的计算涉及到矩阵，并不适合实际应用。通过其派生的LMS算法简单实用，计算效率高。TI公司的DSP芯片TMS320C54X有专门的LMS指令用于加速自适应滤波算法。在实际应用中，还可以在LMS算法的基础上得到修改滤波器系数的算法：

　　详细的自适应回波抵消算法计算步骤如下：

　　(1) 采样值；

　　(2) 根据前一次的计算值和滤波器系数修改算法，进行系数调整；

　　(3) 计算远端估计能量；

　　δ2[k] = (1-α) δ2[k-1] +α X2[k]

　　(4) 进行FIR滤波计算, 求得滤波器的输出y(n)和误差信号e(n)；

　　(5) 数据输出；

　　(6) 跳转到第一步。

　　2.2 有无声能量检测

　　在ITU-T协议中有无声检测即语音激活检测(Voice Activity Detection)。在多点音频会议中，有无声检测使得在某一时段实际语音合成的终端数目大大少于与会者数目，降低了合成运算量，减轻了处理芯片的负担。同时也是麦克风自适应增益控制AGC的基础。

　　在数字语音信号中，有无声检测是通过信号能量、过零率参数的组合，与预置的能量门限值进行比较得出。基于短时平均能量的计算是利用一个固定宽度的滑动窗口，每输入一个最新样本，计算该样本之前的窗口覆盖的所有样本的能量平均值，将其与一个能量门限值比较来判断该新样本是静音还是有声。

　　如上所述，以帧为单位对数字语音进行检测，如果某一帧内有任何一个样本是有声，则该帧就是有声。将窗口以帧为单位滑动，而不是以样本为单位，直接凭每帧的最后一个样本是有无声来确定该帧是有声帧或无声帧，这种简化的判断方式大大节省了运算量。对判断的结果而言并无影响。

　　使用自适应变化的能量门限可以更加准确地对有无声加以判断。可以通过样本短时能量的一阶线性低通滤波得到背景噪声能量。而自适应能量门限值则保持与短时背景噪声能量一个静音检测的灵敏度常量比值So。长时间连续讲话会升高背景噪声的估计值，这就相应地提高了静音检测能量门限，有可能造成紧接着发生的低幅值的讲话当作静音而未被检测到。所以当检测到话音时可以通过改变低通滤波器的截止频率来重新估计噪声能量。

　　在过滤静音的同时应当注意如何保留短时能量相对较低的微弱音频信号，如摩擦音和辅音。这些微弱信号的存在保证了语音语义的完整性，所以在短时平均能量判断之外还应该结合过零率的判别保留这些微弱音频信号。采用余音生成器的方式可以实现微弱音频信号的保留，即余音生成器将紧跟在一个语音串后的头几帧。所谓无声的帧仍然应该被当作是有声，从而避免低电平语音被抑制掉。ITU-T G.723.1A对余音生成器算法作了较详细的设计，在此不做详细描述。

　　2.3 归一化定标处理

　　多路语音信号合成时采用线性叠加，必须解决的问题是如何防止叠加产生溢出而导致失真。如果采样样本是16bit，而求和缓冲区也是16bit，那两路音频流就容易使求和区溢出。即使提供了高精度的求和缓冲区，使得在求和过程中不会溢出，但是这不能保证求和结果的幅值适合输出硬件器件的要求范围(DA器件范围通常是16bit)。

　　简单的方法是对超出范围的值箝位。更好的方法是对求和结果分帧进行归一化定标，具体就是：对某个求和语音帧中的所有样本分析，若样本S的值超过了器件所能表示的最大范围，那么S之后的所有样本均乘以一个衰减因子f。其中f是能够使S满足输出器件范围的最大值，显然，f的绝对值小于1。这样在箝位后的一段时间内，语音样本之间的大小是相对不变的。

　　在实验中选用了通用的16bit定点DSP芯片TMS320C549进行实时仿真来完成多路音频流的合成。各路线性样本相加过程中，求和的值是不会溢出的，因为样本是16bit，而累加器是32bit。但和值很容易超过输出硬件设备允许的范围(16bit)。

　　在归一化定标处理中，初始化时衰减因子f为1，每次开始处理一个新的样本缓冲区时，任何一个样本S超过了范围，将S箝位，并且求得S与允许范围值的比值f，在时序上位于S之后的样本都除以f。但是为了避免语音不必要的衰减，而箝位操作有让f越来越小的趋势，因此需要有让f变大的地方，这发生在每个新样本缓冲区开始处理的入口。新的缓冲区样本仍然需要衰减的可能性很大，所以f不适合每次都从1开始，而是应该在某种程度上继承过去的值。即在每个新样本缓冲区的入口处，只要f不等于1，就将其调整为比f稍大些的值，让它成为新的衰减因子。若样本的确不需要衰减，经过若干帧后f会慢慢变回1。

　　定点DSP中不易使用除法，所以可以把所有f的值做成一张表，f的取值范围定义为1/16、2/16，直到15/16，它的衰减精度为1/16。当S发生箝位时，用比较法或者查表法求出合适f (15个取值之一)。之所以考虑是1/16的步长，是因为它已经可以确保16个输入流求和不会溢出，如果还需要更大的精度，可以取1/32(2的n次方由定点DSP实现起来较方便)。

　　归纳起来，归一化定标的核心思想是：f必须很快地变成合适的衰减因子，使得样本不会溢出，然后f会慢慢地变回1。S发生箝位时f立刻被计算出，而在时间上每处理完一个求和帧后，就试图把f向1靠近，f每次增加它与1的差值的1/16。即： f′= f+(1-f)/16。具体的定标流程图如图2所示。