基于VS1003B的语音通信方法研究

2021-04-02 来源：21ic

简介：在通指装备模拟训练器材研发中，经常会遇到需要模拟实现语音通话功能的情况。常规的解决方案是在计算机上通过高级语言编程实现对声音的采集和播放，并通过局域网进行传输。考虑到语音通信的模块化和可控性，文中以STM32F107VCT6作为核心处理器，采用VS1003B作为语音采集和播放器件，通过CAN总线实现语音和信令传输，设计实现了一种低成本、高质量的语音通信方法。

1 VS1003B解码芯片介绍

VS1003B是由芬兰VLSI公司出品的一款单芯片的MP3/WMA/MIDI音频解码和ADPCM编码芯片，其内部电路如图1所示。由图可见，VS1003B包含一个高性能、具有自主产权的低功耗DSP处理器内核VSDSP，工作数据存储器为用户应用提供5 kB的指令RAM和0.5 kB的数据RAM，串行的控制和数据接口，4个常规用途的I/O口，一个UART，一个高品质可变采样率的ADC和立体声DAC，还有一个耳机放大器和地线缓冲器。

VS1003B通过一个串行输入总线来接收输入的比特流，它可以作为一个系统的从机。输入的比特流被解码，然后通过一个数字音量控制器到达一个18位过采样多位ε-△DAC。解码过程通过一个串行控制总线来控制实现。除了基本的解码，在用户RAM中它还可以做其他特殊应用，例如DSP音效处理。

2 设计原理

以半双工语音通信为例，其工作原理如图2所示。当一方需要讲话时，会按下PTT键，该信号被STM32微处理器检测到后，一方面向对方发送“PTT已按下”的消息，另一方面控制已方VS1003B进入录音模式，VS1003B将采集到的音频数据编码后缓存给STM32，再通过CAN总线发送到对方。对方在收到“PTT已按下”消息后，会控制己方VS1003B开启语音播放模式，将对方传来的音频数据传输给VS1003B进行解码，并根据需要调节音量，供耳机播放。

VS1003B电路原理图如图3所示。J1为麦克风输入插座，用于连接麦克风。J2为外部声音输入插座，连接音源。J3为耳机输出插座，连接耳机，由于内部具有耳机驱动器，VS1003B输出信号不需经过任何功放电路，从而简化了硬件电路。VS1003B各部分的供电电压不同，IOVDD(I/O电压)为3.3 V，CVDD(数字电路电压)为2.5 V，AVDD(模拟电路电压)为2.8 V。最大的采样率XTAL1/256，决定了能以正确的速度播放的音频采样率。例如，如果要播放48 kHz采样率的音频，XTAL1至少为12.288 MHz才能获得正确的播放速度。

对于STM32微处理器来说，总共需要7个IO口与VS1003B连接。SO(串行输出)、SI(串行输入)与SCLK(串行总线时钟)分别接STM32的PB14、PB15和PB13，即接到STM32的SPI2上，VS1003B通过SPI接口输出IMA ADPCM编码的音频数据。其余的四根线中，DREQ(数据请求)连接到PC3，XCS(命令片选)连接到PC10，XDCS(数据片选)连接到PC11，XRESET(复位)连接到STM32的14管脚(NRST)，当STM32复位时，VS1003B同时复位。操作时，只有当DREQ为高(准备好)时才能读写VS1003B。

3 VS1003B程序设计

3.1 初始化VS1003B

在设计中，STM32F103VET6通过SPI总线对VS1003B进行控制，也就是通过VS1003B的串行数据接口SDI和串行控制接口SCI实现STM32F107 VCT6与VS1003B的通信。VS1003B初始化流程如图4所示。其中，DREQ为高时可判断为硬件复位或软件复位结束。

3.2 语音信号的采集

语音信号的采集就是把模拟的语音信号转化为可控制的数字信号。在这一处理过程中，主要是对模拟音频信号进行采样、量化和编码。

目前常见的音频信号的频率范围大致如下：电话为200Hz～3.4 kHz，调幅广播为50 Hz～7 kHz，调频广播为20Hz～15 kHz，高保真音频信号为20 Hz～20 kHz。因此音频取样频率一般定在8～48 kHz范围内。

量化是利用预先规定的有限个电平来表示每一模拟采样值的过程。量化的精度与其用来表示采样值的二进制位数有关，例如4位可表示24=16个量化等级，8位可表示28=256个量化等级。明显地，位数越多，量化值越接近采样值，其精度也就越高，但相应的所需的存储量也越大(见表1)。

鉴于STM32F107VCT6主频最高为72 MHz，在保证声音质量的前提下，应尽量减少数据量，因此本文对声音的采样频率为8 kHz，量化精度为8 bit，此时数据码率为64 kbit/s。

语音压缩编码需要在保持可懂度、音质、限制码率及降低编码过程的计算代价这几个方面进行折衷。VS1003B提供了IMA ADPCM编码，这是由互动多媒体协会(IMA)制定的标准，属于波形编码的一种，采用麦克风和线入两种输入方式，可支持的音频文件格式包括MP3、MP3+V、WMA、WAV、MIDI和SP-MIDI。IMA ADPCM适用于8～44.1 kHz采样频率，并且能在CPU占用率低和内存空间需求少的条件下保证较好的音质，在Windows和MAC操作系统中有广泛的应用。IMA ADPCM录音模式需要在SCI_MODE中对SM_RESET和SM_ADPCM进行置位来启动。在启动ADPCM录音前，必须分别向SCI_AICTRL0和SCI_AICTRL1写入时钟分割值(据此可得到采样率)和增益值。录音流程如图5所示。记录的语音数据以512字节为单位进行存储，并由STM32处理器通过CAN总线向对方转发。

3.3 CAN通信

CAN总线作为一种总线式串行通信网络，与一般的通信总线相比，具有突出的可靠性、实时性和灵活性等特点。考虑到模拟训练器材对语音传输距离的要求不高，且STM32自带bxCAN，即基本扩展CAN，它支持CAN协议2.0A和2.0B，支持报文发送的优先级要求，支持时间触发通信，距离40 m内波特率可达1Mbit/s。因此，设计上采用CAN总线来实现语音数据传输，由STM32F107VCT6内嵌的2路CAN控制器与外围器件SN65HVD230 (也标识为VP230)收发器组成2路CAN收发电路，其中一路CAN组成信令网，实现控制信令的传输;另一路CAN组成语音网，将ADPCM压缩编码后的数据，由STM32处理为CAN报文格式，发送到总线上，并对CAN过滤器进行设置，使之仅在收到给自己的报文时引起中断。

3.4 语音信号的播放

播放前将对方传来的语音数据存放到STM32的缓冲区，缓冲区的大小设置为512字节，一般一次读一个扇区，然后将数据发往VS1003B。由于VS1003B有32字节的数据缓冲区，一次可以发32个字节的数据，然后检测DREQ，当DREQ为高时送下一个32字节的数据，直到发完为止。 DREQ为高表明VS1003B可以接受新的数据，如果不考虑DREQ而直接连续的给VS1003B发音频数据，将会出现声音断断续续的情况。语音播放流程如图6所示，考虑到实际语音通信时，本地PTT键抬起时，对方会无法听到语音，因此流程图中采用判断对方PTT键的状态来处理是否播放。