历史上的今天
返回首页

历史上的今天

今天是:2025年01月07日(星期二)

正在发生

2021年01月07日 | 神经网络声码器:让机器人“说人话”

2021-01-07 来源:IT创事记

往往在放下手机之后你才会意识到,电话那头的客服其实是个机器人;或者准确地说,是“一位”智能客服。

没错,今天越来越多的工作正在被交给人工智能技术去完成,文本转语音(TTS,Text To Speech)就是其中非常成熟的一部分。它的发展,决定了今天我们听到的许多“人声”,是如此地逼真,以至于和真人发声无异。

除了我们接触最多的智能客服,智能家居中的语音助手、可以服务听障人士的无障碍播报,甚至是新闻播报和有声朗读等服务,事实上都基于TTS这项技术。它是人机对话的一部分——简单地说,就是让机器说人话。

它被称为同时运用语言学和心理学的杰出之作。不过在今天,当我们称赞它的杰出时,更多的是因为它在在线语音生成中表现出的高效。

要提升语音合成效率当然不是一件容易的事。这里的关键是如何让神经声码器高效地用于序列到序列声学模型,来提高TTS质量。

科学家已经开发出了很多这样的神经网络声码器,例如WaveNet、Parallel WaveNet、WaveRNN、LPCNet 和 Multiband WaveRNN等,它们各有千秋。

WaveNet声码器可以生成高保真音频,但在计算上它那巨大的复杂性,限制了它在实时服务中的部署;

LPCNet声码器利用WaveRNN架构中语音信号处理的线性预测特性,可在单个处理器内核上生成超实时的高质量语音;但可惜,这对在线语音生成任务而言仍不够高效。

科学家们希望TTS能够在和人的“交流”中,达到让人无感的顺畅——不仅是语调上的热情、亲切,或冷静;更要“毫无”延迟。

新的突破出现在腾讯。腾讯 AI Lab(人工智能实验室)和云小微目前已经率先开发出了一款基于WaveRNN多频带线性预测的全新神经声码器FeatherWave。经过测试,这款高效高保真神经声码器可以帮助用户显著提高语音合成效率。

英特尔的工程团队也参与到了这项开发工作中。他们把面向第三代英特尔至强可扩展处理器所做的优化进行了全面整合,并采用了英特尔深度学习加速技术(英特尔 DL Boost)中全新集成的 16 位 Brain Floating Point (bfloat16) 功能。

bfloat16是一个精简的数据格式,与如今的32位浮点数(FP32)相比,bfloat16只通过一半的比特数且仅需对软件做出很小程度的修改,就可达到与FP32同等水平的模型精度;与半浮点精度 (FP16) 相比,它可为深度学习工作负载提供更大的动态范围;与此同时,它无需使用校准数据进行量化/去量化操作,因此比 INT8 更方便。这些优势不仅让它进一步提升了模型推理能力,还让它能为模型训练提供支持。

事实上,英特尔至强可扩展处理器本就是专为运行复杂的人工智能工作负载而设计的。借助英特尔深度学习加速技术,英特尔志强可扩展处理器将嵌入式 AI 性能提升至新的高度。目前,此种处理器现已支持英特尔高级矢量扩展 512 技术(英特尔AVX-512 技术)和矢量神经网络指令 (VNNI)。

在腾讯推出的全新神经声码器FeatherWave 声码器中,就应用了这些优化技术。


FeatherWave 声码器框图

利用英特尔AVX-512技术和bfloat16指令,腾讯的科学家们确保了GRU模块和Dense运算符中粗略部分/精细部分的所有SGEMV计算都使用512位矢量进行矢量化,并采用bfloat16点积指令;对于按元素逐个加/乘等运算以及其他非线性激活,都使用最新的英特尔AVX-512 指令运行。

在最终都性能测试中,通过优化,相同质量水平(MOS4.5)的文本转语音速度比FP32提升了高达1.54倍。

此外,腾讯还以 GAN 和 Parallel WaveNet (PWaveNet)为基础,推出了一种改进后的模型,并基于第三代英特尔至强可扩展处理器对模型性能进行了优化,最终使性能与采用FP32相比提升了高达1.89倍,同时质量水平仍保持不变 (MOS4.4)。

腾讯在TTS领域的进展显示出了人工智能领域的一个趋势,那就是科学家们越来越多开始利用英特尔深度学习加速技术在CPU平台上开展工作。

就像腾讯在针对TTS的探索中获得了性能提升那样,第二代和第三代英特尔至强可扩展处理器在集成了加速技术后,已经显著提升了人工智能工作负载的性能。

在更广泛的领域内,我们已经能够清楚地看到这种变化——在效率表现上,由于针对常见人工智能软件框架,如TensorFlow和PyTorch、库和工具所做的优化,CPU平台可以帮助保持较高的性能功耗比和性价比。

尤其是扩展性上,用户在设计系统时可以利用如英特尔以太网700系列,和英特尔傲腾内存存储技术,来优化网络和内存配置。这样一来,他们就可以在充分利用现有硬件投资的情况下,轻松扩展人工智能训练的工作负载,获得更高的吞吐量,甚至处理巨大的数据集。

不止于处理器平台本身,英特尔目前在面向人工智能优化的软件,以及市场就绪型人工智能解决方案两个维度,都建立起了差异化的市场优势。

例如在软件方面,英特尔2019年2月进行的 OpenVINO/ResNet50 INT8 性能测试显示,使用 OpenVINO或TensorFlow和英特尔深度学习加速技术时,人工智能推理性能可提高多达 3.75 倍。

今天,英特尔已经携手解决方案提供商,构建了一系列的精选解决方案。这些方案预先进行了配置,并对工作负载进行了优化。这就包括了如基于人工智能推理的英特尔精选解决方案,以及面向在面向在Apache Spark上运行的BigDL的英特尔精选解决方案等。

这些变化和方案的出现对于那些希望能从整体业务视角,去观察人工智能进展的机构或企业的管理层显然也很有意义——如果只通过优化,就能在一个通用平台上完成所有人工智能的探索和落地,那么投资的价值就能够实现最大化。

许多企业做出了这样的选择,GE医疗就是其中一家。作为GE集团旗下的医疗健康业务部门,它构建了一个人工智能医学影像部署架构。

通过采用英特尔至强可扩展处理器,和英特尔固态盘,以及多项英特尔关键技术——例如英特尔深度学习开发工具包,和面向深度神经网络的英特尔数学核心函数库等;GE医疗收获了未曾预料到的成果:

这一解决方案最终比基础解决方案的推理速度提升了多达14倍,且超过了GE原定推理目标5.9倍。

推荐阅读

史海拾趣

CTS公司的发展小趣事

进入20世纪90年代,CTS公司迎来了重要的技术突破。随着Motorola通讯零件事业部的加入,CTS在无线通讯领域取得了显著进展,成为该领域的领先者。此外,CTS还积极投入研发,不断推出创新产品,进一步巩固了其在电子行业的地位。

宝乘(baocheng)公司的发展小趣事

面对未来电子行业的发展趋势,宝乘公司继续坚持创新驱动的发展战略。公司加大研发投入,不断推出具有创新性和前瞻性的产品。同时,宝乘还积极探索新的市场领域和应用场景,为公司的未来发展奠定坚实的基础。相信在不久的将来,宝乘公司将成为电子行业中的佼佼者,为社会的进步和发展做出更大的贡献。

请注意,这些故事是基于现有信息的推测,并不代表宝乘公司的真实历史。如果您需要更准确和详细的信息,建议直接联系宝乘公司或查阅相关报道和资料。

芯源半导体(CW)公司的发展小趣事

作为一家有社会责任感的企业,芯源半导体(CW)公司始终关注环境保护和可持续发展。公司积极推广绿色生产和循环经济理念,采用环保材料和节能技术,减少生产过程中的污染和浪费。同时,公司还积极参与社会公益事业,为当地社区和弱势群体提供帮助和支持。这些举措使芯源半导体(CW)公司赢得了社会的广泛赞誉和尊重。

爱浦电子(AIPULNION)公司的发展小趣事

爱浦电子自成立以来,一直致力于模块电源技术的研发与创新。在成立初期,公司便凭借其专业的研发团队和先进的生产设备,成功研发出多款具有竞争力的模块电源产品。随着技术的不断进步,爱浦电子不断对产品进行升级和优化,以满足市场日益增长的需求。公司不仅通过了ISO9001质量管理体系认证,还成功获得了CE、RoHS等国际认证,进一步提升了产品的品质和竞争力。

Acme Electric Corporation公司的发展小趣事

随着公司业务的不断扩展,爱浦电子于XXXX年成立了广州优联电气科技有限公司作为其分支机构。这一举措不仅进一步扩大了公司的业务范围和市场影响力,还为公司提供了更多的发展机遇和合作伙伴。广州优联电气科技有限公司在爱浦电子的业务开拓、经营及配套服务方面发挥了重要作用,推动了公司整体业务的快速发展。

这五个故事只是爱浦电子发展起来的一部分缩影,它们展现了公司在技术创新、市场拓展、服务升级、创新引领以及分支机构成立等方面的努力和成就。正是这些不懈的努力和持续的进步,使得爱浦电子在电子行业中脱颖而出,成为一家备受瞩目的高新技术企业。

固驰(GUERTE)公司的发展小趣事

近年来,固驰电子积极响应时代趋势和市场变化,不断加大技术创新力度。同时,作为REFLEK技术公司(又称Reflek恒昼科技)旗下的品牌,固驰(FlexiShield)还启动了品牌重塑计划,旨在以全新面貌引领行业未来发展方向。Reflek恒昼科技在金属隔热原膜及磁控膜领域拥有深厚的技术积累,其打造的FlexiShield固驰窗膜和漆面保护膜品牌迅速在市场上占据一席之地,进一步丰富了固驰电子的产品线。

问答坊 | AI 解惑

程控三相精密线性功率源的设计

  摘要:针对某些领域对三相程控高精度电源的需求,提出了一种三相功率源的设计方法。该方法主要利用单片EPROM实现三相稳定信号源的产生,采用同步跟随电源技术进行线性功率放大,采用功率合成技术实现大功率输出。测试结果表明该功率源波形失 ...…

查看全部问答>

威盛694XB公版主板电路图(INTEL810E)

威盛694XB公版主板电路图,需要的朋友看看吧.... 威胜的那套图被黑客给黑掉了,我也没有了.换一套INTEL810E的吧.再过几天我会陆续在上一些PC主板的图的. [ 本帖最后由 西门 于 2009-5-15 22:32 编辑 ]…

查看全部问答>

【新手指南】论坛帮助帖汇总

最近抽空整理了一些论坛的帮助帖,希望能对大家有帮助,不断完善中........ 大家多提意见,多问问题,我会帮大家找到答案并在帖子中逐步完善!                   一、 &nbs ...…

查看全部问答>

wince5.0怎样才能收到蓝牙耳机按键消息?

修改C:\\WINCE500\\PRIVATE\\WINCEOS\\COMM\\BLUETOOTH里面的代码,进行全编译都编不进去 有什么办法可以截获蓝牙耳机按键消息吗?…

查看全部问答>

高手进来指导下。我用C语言写了两天的日历时钟,有闹钟功能、计时功能。

#include #include #define UCHAR unsigned char #define UINT unsigned int void init(); void delay(UINT); void displayWeek(UCHAR week); void displayTime(UCHAR first, UCHAR second); void writeCmd(UCHAR cmd); void writeData(UCHAR dat) ...…

查看全部问答>

请问AT91RM9200的网络DMA

它的EMC的传输方式是不是就称为DMA?  还是说他另外有一种DMA的传输方式可以选择?…

查看全部问答>

帮个忙!!

本人搞软件的,会几门编程语言。比较熟悉的有vb、vc++,现在想往单片机方面靠靠。以前上学时学过单片机,汇编语言,计算机组成等,对单片机还特意学了一段时间(都是理论的,没实践过),毕业后因为工作的事就在也没接触过。现在想学的话从什么地方 ...…

查看全部问答>

段寄存器左移四位后,前四位不是溢出了吗?

8086微处理器课程中,在介绍存储器20位地址的形成时,说16位段寄存器中数据左移四位后再与偏移值相加,那么左移四位后前四位不是溢出了吗?如原来是ABCDH,左移后为BCD0H,不会为ABCD0H啊?…

查看全部问答>

cyclone2 FPGA 开发板转让

  [ 本帖最后由 wenhuawu 于 2011-6-3 10:57 编辑 ]…

查看全部问答>