历史上的今天
返回首页

历史上的今天

今天是:2025年02月20日(星期四)

正在发生

2019年02月20日 | ZLG深度解析——语音识别技术

2019-02-20 来源:ZLG致远电子

语音识别已成为人与机器通过自然语言交互重要方式之一,本文将从语音识别的原理以及语音识别算法的角度出发为大家介绍语音识别的方案及详细设计过程。

语言作为人类的一种基本交流方式,在数千年历史中得到持续传承。近年来,语音识别技术的不断成熟,已广泛应用于我们的生活当中。语音识别技术是如何让机器“听懂”人类语言?本文将为大家从语音前端处理、基于统计学语音识别和基于深度学习语音识别等方面阐述语音识别的原理。

随着计算机技术的飞速发展,人们对机器的依赖已经达到一个极高的程度。语音识别技术使得人与机器通过自然语言交互成为可能。最常见的情形是通过语音控制房间灯光、空调温度和电视的相关操作等。并且,移动互联网、智能家居、汽车、医疗和教育等领域的应用带动智能语音产业规模持续快速增长,2018年全球智能语音市场规模将达到141.1亿美元。

(数据来源:中商产业研究院整理)

目前,在全球智能语音市场占比情况中,各巨头市场占有率由大到小依次为:Nuance、谷歌、苹果、微软和科大讯飞等。

(数据来源:中商产业研究院整理)

语音识别的本质就是将语音序列转换为文本序列,其常用的系统框架如下:

接下来对语音识别相关技术进行介绍,为了便于整体理解,首先,介绍语音前端信号处理的相关技术,然后,解释语音识别基本原理,并展开到声学模型和语言模型的叙述,最后,展示我司当前研发的离线语音识别demo。

1前端信号处理

前端的信号处理是对原始语音信号进行的相关处理,使得处理后的信号更能代表语音的本质特征,相关技术点如下表所述:

1、语音活动检测

语音活动检测(Voice Activity Detection, VAD)用于检测出语音信号的起始位置,分离出语音段和非语音(静音或噪声)段。VAD算法大致分为三类:基于阈值的VAD、基于分类器的VAD和基于模型的VAD

基于阈值的VAD是通过提取时域(短时能量、短时过零率等)或频域(MFCC、谱熵等)特征,通过合理的设置门限,达到区分语音和非语音的目的;

基于分类的VAD是将语音活动检测作为(语音和非语音)二分类,可以通过机器学习的方法训练分类器,达到语音活动检测的目的;

基于模型的VAD是构建一套完整的语音识别模型用于区分语音段和非语音段,考虑到实时性的要求,并未得到实际的应用。

2、降噪

在生活环境中通常会存在例如空调、风扇等各种噪声,降噪算法目的在于降低环境中存在的噪声,提高信噪比,进一步提升识别效果。

常用降噪算法包括自适应LMS和维纳滤波等。

3、回声消除

回声存在于双工模式时,麦克风收集到扬声器的信号,比如在设备播放音乐时,需要用语音控制该设备的场景。

回声消除通常使用自适应滤波器实现的,即设计一个参数可调的滤波器,通过自适应算法(LMS、NLMS等)调整滤波器参数,模拟回声产生的信道环境,进而估计回声信号进行消除。

4、混响消除

语音信号在室内经过多次反射之后,被麦克风采集,得到的混响信号容易产生掩蔽效应,会导致识别率急剧恶化,需要在前端处理。

混响消除方法主要包括:基于逆滤波方法、基于波束形成方法和基于深度学习方法等。

5、声源定位

麦克风阵列已经广泛应用于语音识别领域,声源定位是阵列信号处理的主要任务之一,使用麦克风阵列确定说话人位置,为识别阶段的波束形成处理做准备。

声源定位常用算法包括:基于高分辨率谱估计算法(如MUSIC算法),基于声达时间差(TDOA)算法,基于波束形成的最小方差无失真响应(MVDR)算法等。

6、波束形成

波束形成是指将一定几何结构排列的麦克风阵列的各个麦克风输出信号,经过处理(如加权、时延、求和等)形成空间指向性的方法,可用于声源定位和混响消除等。

波束形成主要分为:固定波束形成、自适应波束形成和后置滤波波束形成等。

2语音识别的基本原理

已知一段语音信号,处理成声学特征向量之后表示为,其中表示一帧数据的特征向量,将可能的文本序列表示为,其中表示一个词。语音识别的基本出发点就是求,即求出使最大化的文本序列。将通过贝叶斯公式表示为:

其中,称之为声学模型,称之为语言模型。大多数的研究将声学模型和语言模型分开处理,并且,不同厂家的语音识别系统主要体现在声学模型的差异性上面。此外,基于大数据和深度学习的端到端(End-to-End)方法也在不断发展,它直接计算 ,即将声学模型和语言模型作为整体处理。本文主要对前者进行介绍。

3声学模型

声学模型是将语音信号的观测特征与句子的语音建模单元联系起来,即计算。我们通常使用隐马尔科夫模型(Hidden Markov Model,HMM)解决语音与文本的不定长关系,比如下图的隐马尔科夫模型中。

将声学模型表示为

其中,初始状态概率和状态转移概率( 、 )可用通过常规统计的方法计算得出,发射概率( 、 、 )可以通过混合高斯模型GMM或深度神经网络DNN求解。

传统的语音识别系统普遍采用基于GMM-HMM的声学模型,示意图如下:

其中,表示状态转移概率,语音特征表示,通过混合高斯模型GMM建立特征与状态之间的联系,从而得到发射概率,并且,不同的状态对应的混合高斯模型参数不同。

基于GMM-HMM的语音识别只能学习到语音的浅层特征,不能获取到数据特征间的高阶相关性,DNN-HMM利用DNN较强的学习能力,能够提升识别性能,其声学模型示意图如下:

GMM-HMM和DNN-HMM的区别在于用DNN替换GMM来求解发射概率,GMM-HMM模型优势在于计算量较小且效果不俗。DNN-HMM模型提升了识别率,但对于硬件的计算能力要求较高。因此,模型的选择可以结合实际的应用调整。

4语言模型

语言模型与文本处理相关,比如我们使用的智能输入法,当我们输入“nihao”,输入法候选词会出现“你好”而不是“尼毫”,候选词的排列参照语言模型得分的高低顺序。

语音识别中的语言模型也用于处理文字序列,它是结合声学模型的输出,给出概率最大的文字序列作为语音识别结果。由于语言模型是表示某一文字序列发生的概率,一般采用链式法则表示,如是由组成,则可由条件概率相关公式表示为:

由于条件太长,使得概率的估计变得困难,常见的做法是认为每个词的概率分布只依赖于前几个出现的词语,这样的语言模型成为n-gram模型。在n-gram模型中,每个词的概率分布只依赖于前面n-1个词。例如在trigram(n取值为3)模型,可将上式化简:

5语音识别效果展示

基于PC的语音识别展示demo如下视频所示:

视频包括使用“小致同学”唤醒设备,设备唤醒之后有12秒时间进行语音识别控制,空闲时间超过了12秒将再次休眠。

我们的语音识别算法已经部分移植到了基于AWorks的cortex-m7系列M1052-M16F12 8AWI -T平台。语音识别的声学模型和语言模型是我司训练的用于测试智能家居控制的相关模型demo,在支持65个常用命令词的离线识别测试中(数量越大识别所需时间越长),使用读取本地音频文件的方式进行语音识别“打开空调”所需时间0.46s左右。下面是在M1052-M16F128AWI-T的实测效果:

6关于算法库获取

目前语音识别系统处于研发阶段,广大客户可将自身需求反馈给周立功单片机有限公司与致远电子有限公司相关市场人员,我们会以最快速度研发客户需要的产品。

M1052-M16F128AWI-T产品图片

推荐阅读

史海拾趣

Acmelux Taiwan Inc公司的发展小趣事

在追求经济效益的同时,Acmelux Taiwan Inc公司也积极履行社会责任,致力于实现可持续发展。公司不仅关注环保和节能减排,还积极参与公益事业,为社会做出贡献。通过实施绿色生产、推广环保产品等措施,Acmelux不仅降低了生产成本,还提升了企业的社会形象。同时,公司还注重与社会的和谐发展,通过捐资助学、扶贫济困等方式,回馈社会,实现了经济效益与社会效益的双赢。


这些故事都是基于一般企业发展规律和可能的实践而编写的,与Acmelux Taiwan Inc公司的实际情况可能存在差异。如果您需要更具体的信息,建议直接查阅该公司的官方网站、新闻报道或相关研究报告。

西安航天民芯公司的发展小趣事

在宇航领域,动力电池管理芯片的性能要求极高。西安航天民芯凭借其在集成电路设计领域的深厚积累,成功研发出全国第一颗宇航级动力电池管理芯片。这一突破不仅打破了国外垄断的局面,也为中国宇航事业的发展做出了重要贡献。

AITSEMI公司的发展小趣事

随着产品线的不断完善,AITSEMI公司开始积极寻求市场机会,并逐步在全球范围内建立销售网络。通过与各大消费电子品牌的紧密合作,AITSEMI的芯片产品成功应用于音频功放和电源管理等领域,为全球消费者提供了更优质的产品体验。同时,公司还积极拓展医疗、工业控制、照明等新兴市场,为公司的持续增长提供了强大的动力。

Desco Tools公司的发展小趣事

Desco Tools公司最初成立于上世纪70年代,专注于防静电工具的研发和生产。当时,随着电子行业的迅速发展,对静电防护的需求日益增加。Desco Tools公司凭借其敏锐的市场洞察力和技术实力,成功开发出了一系列防静电工具,如防静电手套、手腕带等,这些产品迅速在市场上获得了认可,为公司的发展奠定了坚实的基础。

迦美信芯(CanaanTek)公司的发展小趣事

在导航芯片领域,迦美信芯也取得了显著成就。由公司董事长兼CTO倪文海主导开发的兼容“GPS+北斗导航”的射频芯片,被国内主要基带厂商广泛采用,占据了北斗细分市场60%的份额。这一成就不仅彰显了迦美信芯在导航芯片领域的强大实力,也为其在物联网和汽车电子等领域的应用奠定了坚实基础。

Hpc Technology Inc公司的发展小趣事

在导航芯片领域,迦美信芯也取得了显著成就。由公司董事长兼CTO倪文海主导开发的兼容“GPS+北斗导航”的射频芯片,被国内主要基带厂商广泛采用,占据了北斗细分市场60%的份额。这一成就不仅彰显了迦美信芯在导航芯片领域的强大实力,也为其在物联网和汽车电子等领域的应用奠定了坚实基础。

问答坊 | AI 解惑

【转】史上最全的AVR单片机学习笔记

本帖最后由 paulhyde 于 2014-9-15 03:20 编辑 史上最全的AVR单片机学习笔记,希望对于AVR的初学者有所帮助! 实验44:基于TC1的ICP频率计(ATmega16) 实验42:L298电机驱动程序(M16+12V直流电机) 实验41:TLC5615驱动程序(M16+MAX7219+8位数 ...…

查看全部问答>

转发我们的热招的职位(资深设计engineer/manager)-有兴趣的进来看下!!

公司信息 Headquartered in Sunnyvale, California, Silicon Storage Technology, Inc (SST) was founded in 1989 and got listed on the NASDAQ in 1995. SST designs, manufactures and markets a diversified range of memory and non-memory p ...…

查看全部问答>

快疯了,100分eVC测试

开发板上有几个跳线,我写了一个测试的程序,却出问题了,大家帮忙看看... 跳线驱动部分内容: BOOL Addr_Init() {    //地址映射 } BOOL WINAPI  DllEntry(HANDLE hInstDll,DWORD dwReason,LPVOID lpvReserved) ...…

查看全部问答>

几道计算机原理的选择题,请大虾帮忙做一下,特基础

希望大家能在给出正确答案的同时给出详细的解释,即解释出每个选项为什么对了后错了,辛苦啦 1.下列是有关计算机中指令和数据存放位置的叙述,其中正确的是()。 A. 指令存放在内存中,数据存放在外存中 B. 指令和数据任何时候都存放在内存中 ...…

查看全部问答>

急!!!请教大家一个模拟器连接设置的问题

我安装了EVC4和补丁EVC4SP4,再安装了一个自己的模拟器。但是在连接的时候,EVC老连接不上模拟器,但是EVC自带的标准模拟器又可以连接上。请问大家知道是什么原因吗?我设置和重装了很多次,都不行。谢谢大家了!一定会及时结帖给分!…

查看全部问答>

请问有人测过AT91RF40008的功耗么

看它的DATASHEET上写的功耗是0.83mW/MHz,有用过的人测过这个功耗值可靠么?…

查看全部问答>

在evc4.0开发环境,多边形外环和内环填充的问题

我有1个问题请教,在evc4.0开发环境,那位做过多边形外环和内环填充的项目,我用polypolygon这个函数,可是他不支持evc,在vc下面好用。 我要达到的效果外环里面的内环不被填充,可是在evc4.0下内环也被填充了。请问是这个函数polypolygon不支持ev ...…

查看全部问答>

【求助】请问这是什么原因?

我用经典的串口的测试程序,在线仿真时发送和接收都正常。但是如果只用外部电源供电,不接仿真器,单片机发给pc的数据就接收不到了。如果这时再把仿真器连上,这是只是连上,不开IAR编译器,工作又正常了。我做板子的时候因为考虑到用外部电源供电 ...…

查看全部问答>

宽带放大器

为什么在高频放大器的时候,我增大频率时放大倍数也会衰减,甚至比原来的还小,这是为什么,请教,,,…

查看全部问答>