历史上的今天
返回首页

历史上的今天

今天是:2025年04月02日(星期三)

正在发生

2019年04月02日 | 准确率提高9.5% 亚马逊Alexa推出新语音识别系统

2019-04-02 来源:智东西

导语:亚马逊Alexa部门的研究人员开发了2-mic语音识别系统,相较于传统的7-mic系统,该方法将语音识别准确率提高了9.5%。

在语音识别方面,两个麦克风比一个麦克风更好,这是一个公认的事实。直观的说,这是有一定道理的:声波到达多个麦克风的时间延迟不同,这可以用来提高来自某个方向的信号的强度,同时减少来自其他方向信号的干扰。传统上,语音增强(将语音从噪声中分离出来)的问题一直是独立于语音识别来解决的,但是相关实验结果表明,这种方法所取得的效果并不太好。最近,亚马逊研究人员对此提出了自己的解决办法。

亚马逊Alexa部门的研究人员认为,他们已经开发出一种新的声学建模框架,通过统一语音增强和语音识别来提高性能。在实验中,当应用2-mic系统时,他们声称他们的模型比使用传统的7-mic系统提高了9.5%的语音识别准确率。

他们在两篇论文中描述了自己的工作成果,“频域多通道声学模型用于远程语音识别”和“多几何空间声学模型用于远程语音识别”,这两篇论文将于下月在布莱顿举行的第44届ICASSP国际声学、语音与信号处理会议上发表。

研究人员在论文中描述了一种多麦克风系统方法,它取代了独立的手工编码算法,这些算法确定波束形成器(在传感器输出上工作的空间滤波器,以增强波的幅度)的方向,并用单个神经网络识别语音信号。亚马逊目前的Echo音箱可以动态调整波束形成器,以适应新的声学环境。

Alexa语音组的语音科学家Kenichi Kumatani在一篇博客文章中解释道:“传统技术旨在将单个声束指向任意方向,但这是一种计算密集型的方法。” “有了Echo智能音箱,我们可以将多个声束指向不同的方向,并识别出产生最清晰语音信号的那一个……这就是为什么即使电视在几码外发出刺耳的声音,Alexa依然可以理解你对要求播报天气预报的指令。”

单个神经网络和传统模型都将波束形成器的输出以对数滤波器组能量的形式传递给特征提取器,或者以多个不规则频带的信号能量快照的形式传递给特征提取器。在传统的模型中,它们对背景噪声进行标准化估算,提取器的输出被传递给一个人工智能系统,该系统计算出不同“电话”(即语音信息的短单位)对应的特征的概率。

论文的作者表示,如果模型的每个组件(例如,特征提取器和波束形成器优化器)分别初始化,性能就会提高。他们同时补充到,不同的训练数据使模型能够跨设备处理各种类型和配置的麦克风。Kumatani说:“这意味着新设备的ASR(自动语音识别技术)系统,或者使用范围不太广泛的设备,都可以从更广泛使用的设备产生的交互数据中受益。”


推荐阅读

史海拾趣

爱特姆(ATOM)公司的发展小趣事

随着电子行业的快速发展,爱特姆不断加大对技术研发的投入,致力于推出更先进、更稳定的连接器产品。公司成功研发出一系列具有自主知识产权的新产品,不仅提升了产品的性能和质量,也进一步巩固了其在行业内的领先地位。

BLACK&DECKER公司的发展小趣事

BLACK&DECKER公司的历史可以追溯到1910年,由Alonzo G. Decker和Duncan S. Black在美国马里兰州巴尔的摩共同创立。两位创始人的初始投资来自于Black先生卖掉他的二手车所得的600美元,再加上1200美元的贷款。公司起初主要生产牛奶瓶装盖机、棉花采集机、糖果浸包机等工业用设备。然而,真正让BLACK&DECKER崭露头角的,是1916年他们发明的现代手枪钻原型。这一创新产品解决了当时德国电动工具笨重、难以操控的问题,为电动工具行业带来了革命性的变革。

BOSER公司的发展小趣事

在国内市场取得一定成绩后,BOSER公司开始积极寻求海外市场的扩张。公司加强与国际知名企业的合作,通过参加国际展览、举办技术研讨会等方式,不断提升品牌知名度和影响力。同时,BOSER还针对不同国家和地区的市场需求,推出定制化的产品和服务,成功打开了多个海外市场。

Carroll & Meynell Transformers Ltd公司的发展小趣事

在环保意识日益增强的今天,Carroll & Meynell Transformers Ltd公司积极响应国家绿色发展的号召,致力于研发和生产绿色环保的变压器产品。公司采用环保材料和节能技术,减少生产过程中的能源消耗和环境污染。同时,公司还加强了对废旧产品的回收和处理工作,实现了资源的循环利用。这种绿色环保的发展理念不仅为公司赢得了良好的社会声誉,也为公司的可持续发展奠定了坚实基础。

Electronic-Bauteile Goerlitz GmbH公司的发展小趣事

为了进一步提升公司的竞争力,Electronic-Bauteile Goerlitz GmbH公司积极实施国际化战略。公司通过与国外知名企业的合作,引进先进的技术和管理经验;同时,公司还在海外设立了研发中心和生产基地,以便更好地满足当地市场的需求。这些举措使得公司的业务范围不断扩展,国际影响力不断增强。

台湾凯励(Carli)公司的发展小趣事

随着技术的不断成熟和市场的不断拓展,凯励公司开始在全球范围内布局。1997年,公司在广东省东莞市设立“东莞凯励电子有限公司”,进一步扩大生产规模。2002年,又在浙江省嘉兴市设立“浙江嘉兴凯励电子有限公司”,进一步完善了公司的产业布局。这些举措不仅提升了凯励公司的产能和效率,也使其能够更好地满足全球客户的需求。

问答坊 | AI 解惑

瞎侃诗一首

=============== 背负青天朝下看, 城廓一片, 跃跃欲试飞上天, 需花时间, 飞得越高越危险, 稍不留神, 翅膀已被云折断。 ===============…

查看全部问答>

8051单片机编程的问题?

CH375与8051通过并口连接,传输数据,通过P1.0口将数据传给与非门,进行红外发射,这该怎么编程那,请赐教!…

查看全部问答>

求一个at91sam9261的bsp

我买的开发板是英贝德的9261,由于新学,对很多东西都不是很懂,而这个开发板有没有现成的bsp模板,哪位能提供一份at91sam9261的bsp模板吗?最好是某家开发板商自带的或者自己做的bsp,可以编译通过的。我绝对不是觊觎您的技术,纯粹是为了学习,相 ...…

查看全部问答>

在没有安装任何显卡驱动下 怎样读取显卡的相关信息

在没有安装任何显卡驱动下 怎样读取显卡的相关信息 如:厂商 deviceid 等?…

查看全部问答>

【求助】AD使用内部参考电压,那几个参考电压脚怎么处理呢?悬空吗?

【求助】AD使用内部参考电压,那几个参考电压脚怎么处理呢?悬空吗?…

查看全部问答>

DSP(TMS320C6747)平台下的SD卡(SD模式)初始化问题

本人调试SD卡初始化过程,一直没有通过。具体情况如下: 初始化的频率设为300KHz,初始化步骤如下: 1.延时74000次减法,(DSP的CPU为300MHz,SD clock 为300KHz,相当于74个SD 个clock)。一次减法是否就一个CPU clock? 2.发 ...…

查看全部问答>

控制步进电机 正反转 程序 解析

我初学51系列单片机,希望有朋友帮忙解析程序   如:主程序中,MAIN:   MOV    TMOD,#10H 这“#10H” 是做什么的,这条指令是做什么?   谢谢帮忙的朋友,谢谢!   控制步进电机 正反转 ...…

查看全部问答>

AT91SAM9XE512 ARM程序无法在SDRAM中运行

我使用了AT91SAM9XE512进行程序设计,如果将程序加载到内部的SRAM中运行,没有问题。但是如果是加载到外部的SDRAM中运行就莫名其妙的跑飞。因为程序战胜的RAM内存比较大,在调试期间只能使用外扩的SDRAM内存,其结果就是无法调试。我手头上共焊接了 ...…

查看全部问答>

msp430F5438

本人初学430,碰到了一些问题,还望各位大神赐教 void Init_Clk(void) {      P7SEL |= 0x03;                           &nb ...…

查看全部问答>