历史上的今天
返回首页

历史上的今天

今天是:2024年11月09日(星期六)

正在发生

2018年11月09日 | 机器嗓音里的赛车场:我们离完美的AI之声还有多远?

2018-11-09 来源:亿欧网

人类与AI的对话频率,正在进入一个前所未有的大爆炸时代。

无论是智能手机里的语音助手、有买有送的智能音箱,还是千娇百媚的智能机器人或者地图导航,总有一款声音萌动你心。这些生活中随处可见的声线,背后其实都是靠一项核心技术来支撑的:语音合成TTS(Text-To-Speech),即将文字转化为声音。

在一般情况下TTS并不受到广泛关注。很多智能语音相关产品的发布会上,它甚至不会占用超过一页PPT的篇幅。但实际上,TTS对于整个AI语音交互的体验触发,起到了决定性的作用:用户听到什么声音,直接影响到AI在他心中的“三次元化”形象。

比如我一个朋友就是因为志玲姐姐嗲嗲的配音,成为了地图导航的死忠粉。而在经典的AI电影《Her》里,人工智能系统OS1就拥有斯嘉丽约翰逊的迷人声线,让男主人公为之倾倒,一段人与AI的虐恋就此展开。

语音合成,为机器注入了一种人格化的魅力,也让人类更愿意与之建立亲密关系。这也意味着,在商业价值都要靠黏住用户来实现的当下,TTS能力将成为各个语音场景输赢的命脉。尽管企业对TTS的需求是如此迫切,但从学术到产业应用之间,TTS依然存在着大片的技术空白。相近的技术原理和前沿算法探索之后,每家公司的解决方案、解决能力都千差万别。二者叠加之下,导致TTS变成了一个巨大的赛场。

本文希望剖析这个并不为大众熟知的赛道,透视一下是什么决定了机器如何说话,决定了用户耳朵的体验与舒适度,又有哪些玩家凭借TTS撬开了智能语音的富矿。

那场极速的温柔:让机器听上去像人,是AI公司的首要奔跑方向

最近,网上流行起了一种新的搞笑玩法:扮演机器。比如,用百度翻译的语音包跟游戏中的队友说话,浓烈的机械味怕是会被队友忍不住一枪爆头。

与此同时,一个娘化的AI形象“绊爱”也迅速走红,被粉丝们亲切地称为“爱酱”。它有着少女一样的形象,能够像人类一样交流,言语之间还会时不时流露出作为AI的志得意满。对过度机械的语音无情调侃,为高度人性化的语音疯狂打call,可以说是普通人对TTS的下限与上限最为直接的反应了。

从中不难看出,TTS的核心赛道,就在于如何让机器的声音听上去韵律自然、情感充沛。说白了,就是如何在机器声音中注入人性。这个听起来很模糊的需求,现实中只能通过TTS多个技术层次的逐步通关来实现。

综合整个流程来看,目前有两方面的工作是AI公司努力的核心方向:

用心的语料库,正在成为TTS发动机

如何用更少的语料合成更自然的高质量语音,可能是未来TTS的技术攻坚方向。

目前看来,更有情感表现力和精准韵律的声音,一定是通过庞大精准的语料库直接拼接产生的。这背后隐藏的,是AI公司正在比拼构建语料库的投入成本与产品精神。

比如苹果就请来了专业配音员苏珊·贝内特(Susan Bennett)为Siri录制原始语料,而微软小娜Cortana的声音则来自演员简·泰勒(Jen Taylor),曾为《光晕》游戏中的角色Cortana配音。国内,高德则邀请了林志玲、郭德纲、TFBOYS、罗永浩、黄晓明、高晓松等众多流量担当来录制导航语音包。

而为小米音箱、喜马拉雅音箱、美的音箱等智能硬件提供服务的AI女声,则是猎户星空从300个女声中投票海选出来的。为了能让AI声音更为流畅自然地进行中英文混说,猎户星空专门找了一个和中文声源发音很像的女孩子来录制英语语料包。

从大量发音人的挑选,语料的精心打磨,以及对用户场景的深度适配,好的TTS前端数据处理能力,是今天区分这个细分领域产业地位的核心。

用算法探索“听着舒服”的边界

解决了基础音源和庞大语料库还远远不够。今天的TTS领域,普遍前进方向是基于相似的模型,在细节上带来TTS效果优化。这个领域构成了AI技术公司在TTS上的算法优势,百度、微软等都在重磅押注。

简单来说,就是通过系统对输入的文本进行分析,获得合成语音的基本单元信息,从标注好的语音库中挑选出最合适的语音单元,根据需求进行一定的修改和调整后,经过波形拼接的方式获得合成的语音。

目前,DeepMind最新的深度生成模型WaveNet,改变了传统的拼接法,而是选择直接对音频信号的原始波形进行建模,一次处理一个样本,来产出更为自然的声音。

目前,WaveNet已经能够模拟任何人类的语音,并且将机器语音合成的表现与人类之间水平的差距至少缩减了50%。中国这边,百度正在研究用讲话人编码(speaker encoding)技术来进行自然语音的生成。

简单来说,讲话人编码器已经学会了把不同人说的话分别聚类,更好地模仿讲话人的声音特点。比如,机器能从口音判断出,讲话者是一个来自北美的男性还是来自英国的男性,从而更逼真地还原出原音。

猎户星空则是通过更多层级的标注体系,来进行语音特征单元的提取。目前可以从声韵母层、音节层、词层、韵律词层、短语层和语句层6个层级,让合成后的语音在上下文韵律信息及准确度上更加完善,听起来也就更符合真人的发音习惯。

总而言之,好的TTS算法,正成为如今区分语音合成领域产业地位的核心。

训练成本之争:AI界的另一个方法,是让机器用你的声音开口

TTS的另一个赛道,是如何让机器低成本地学习用户的声音。

让更多的明星,甚至普通人的声音都可以在终端设备中苏醒,这个技术能力具有广泛的市场想象力。但是,采用明星的声音,往往需要大量语料的录入和拼接。录入时间过长不说,还需要在专业指导下完成。合作的明星要录制几千句,时间跨度动辄几个月,耗资不菲。

即便如此折腾,也难以覆盖全部细分应用领域。在某些衔接处,往往会出现机械拼凑的生涩感。不但阻碍了明星声音进入泛化设备场景,更让普通人对录入自己的声音望而却步。

所以如何降低训练成本,用更少的语料达成声音学习和语音生成,是这条赛道的关键。

最近,百度就发布了自己在语音合成方面的最新成果,可以通过“语音克隆”模仿数千个不同的声音,每个说话者需要不到一个半小时就能完成数据训练。

核心方法是讲话人适配(speaker adaptation),使用数个语音克隆样本,让机器从几秒长度的短句中学习说话者的声音特点,然后通过反向传播的优化方法对多讲话人语音生成模型做精细调节(fine-tune)。讲话人只需提供少量的语料,余下的语音复制所需的素材都可以通过克隆来完成。

猎豹移动旗下的猎户星空语音OS,用户花费5分钟录制10段话,系统就能自动用一段时间合成一个覆盖常用领域的语音包,并且音色自然。简单来说,是用深度学习TTS模型TACOTRON,将文本分析、声学模型、音频合成等模块进行大语料库的打包训练,以这样的语音库作为基础模型,就可以在10段话中提取出发音人的语音特征,然后通过world声码器合成出音色相同的语音。

总结一下,目前TTS领域的现状是,传统的语料对数据的要求太大,往往需要消耗大量人力物力,短期内根本无法被大规模复制。但个性化语音背后隐藏的,又是一个庞大的交互需求。

一旦音源采集成本能够大大降低,普通人也可以轻松生成独属于自己的个性化语音包。试想一下,如果一个聊天机器人具有了真人的语气、生动的表达,是不是能训练出一个很高仿的AI?它可以是一位好久不见的朋友、一个会讲故事的妈妈,或者是一位即将逝去的亲人最后的剪影。

这个技术的“处女地”一旦被撬动,很多智能语音软硬件体验上的困扰都将迎刃而解。因此,建立在数据与算法优势上的少语料分析能力,也成为TTS赛场上重要的弯道技巧,只把少数企业推向更广阔的市场。

工程化与商业入口:TTS的产业地缘争夺

说了这么多不难看出,TTS是一项“可甜可盐”的技术。

它看似存在感很低,却让许多站在金字塔顶端的高科技企业操碎了心;要用最前沿的技术矩阵才能攻克,最终还是要到真实琐碎的人间烟火中千锤百炼。而它的终极目标,还是通过智能设备与生活场景相联接,建立服务市场。

所以一场围绕TTS的争夺战,不仅仅是技术竞速。最重要的竞争指标,是企业的工程化完成能力与市场信赖度。比如说,如果某些新技术只停留在实验室阶段,放到真实的音箱、电视产品上根本不是那么回事儿,或者说优化程度很有限,不但合作伙伴要背锅,“狼来了”听多了,消费者的热情也会被消耗殆尽。

目前百度和科大讯飞在国内难解难分,微软凭借具有号召力的技术表现力占得一席之地,谷歌则是远在天边的“技术明灯”。但普通人能在哪里用到它们,还真是个谜。重技术突破而轻应用、轻市场,恐怕是当前TTS升级阶段的主要矛盾。

这或许也显露出了TTS目前最急需的,不是“居庙堂之高”,反而应该将技术突破尽快投掷于现实,与用户共舞,与产业磨合。

从大环境来看,TTS的应用场景非常丰富。出行、购物、娱乐、育儿、智能手机等等等等,都是能够大显身手的地方。用户的耐心也还在培养期,体验不尽如人意,也只会被友善的调侃一下。一些技术厂商之所以无法跑通这条康庄大道,一方面是产业下沉能力,习惯了在技术上九天揽月,对工程化产品缺乏耐心细致的打磨;

另一方面是大众认知断层,在消费层面缺乏有力的品牌支持和心智保障,出现了“叫好不叫座”的局面。TTS的应用价值,决定了它是一个非常泛在的通用型技术,但并不是所有AI企业都能凭借TTS在泛AI交互市场成功“吃鸡”,它考验的是企业无短板的综合能力。

目前看来,想要拥有不尴尬的TTS,从实验室到产业,还需要长期的应用突破和商业迭代,才能迎来真正的破晓。

推荐阅读

史海拾趣

Everett Charles Technologies (ECT)公司的发展小趣事

1996年,ECT为了进一步壮大在产业中的主导地位,加入了Dover集团。Dover集团是一家在纽约股票交易所上市的全美500强大企业之一,其业务涵盖工业、工程系统、流体、电子技术等多个领域。加入Dover集团后,ECT得到了更多的资源和支持,实现了跨越式发展。Dover集团的全球布局和丰富资源,为ECT在全球范围内的业务拓展提供了有力保障。

Collins Electronics Corp公司的发展小趣事

Collins Electronics Corp的创始人在电子领域拥有深厚的背景和丰富的经验。在公司创立初期,他们发现市场上的电子设备在性能和稳定性上存在巨大的提升空间。于是,他们决定创立一家公司,专注于研发和生产高品质的电子设备。经过多次试验和改进,Collins Electronics Corp推出了他们的首款产品,一款高性能的信号放大器。这款产品凭借其卓越的性能和稳定性,在市场上获得了极大的成功,也为公司的后续发展奠定了坚实的基础。

Gigabit Logic Inc公司的发展小趣事
通过控制脉冲信号的频率或占空比,可以实现更精细的调速范围。
博流(Bouffalo Lab)公司的发展小趣事

博流智能科技始创于2016年,由一群来自硅谷顶级芯片公司的创始团队组成。他们凭借在移动通讯及物联网技术领域的深厚积累,以及对未来科技趋势的敏锐洞察,决定投身于新一代物联网集成电路芯片的研发。初创时期,公司面临着资金、技术和市场等多重挑战,但团队凭借坚定的信念和不懈的努力,逐步克服了困难,为公司的长远发展奠定了坚实基础。

Digital Voice Systems Inc公司的发展小趣事

Digital Voice Systems, Inc.(DVSI)于1988年成立,当时正值数字通信技术的兴起阶段。公司创始人凭借对语音编解码技术的深刻理解和前瞻性的市场洞察力,决定投身于这一领域。他们开发出了具有专利保护的基于鲁棒性多带激励模型(MBE Model)的低码率语音压缩算法,如IMBE和AMBE编解码系统。这些算法在当时的市场上独树一帜,为DVSI赢得了第一桶金。

在创立初期,DVSI面临着资金、技术、市场等多方面的挑战。然而,他们凭借着坚定的信念和不懈的努力,逐步克服了这些困难。他们不断投入研发,优化算法,提高产品的性能和稳定性;同时,他们积极开拓市场,与各大通信设备制造商建立合作关系,将产品推向市场。

随着时间的推移,DVSI的产品逐渐在市场上获得了认可。他们的编解码系统被广泛应用于移动通信、卫星通信、军事通信等领域,为客户提供了高效、稳定的语音通信解决方案。DVSI也因此逐渐崭露头角,成为了电子行业中一颗耀眼的明星。

故事二至五框架概述

  1. 技术创新与突破:DVSI在语音编解码技术方面的持续创新,如推出新一代的高效压缩算法,进一步提升了产品的竞争力。
  2. 市场拓展与国际化:随着公司实力的增强,DVSI开始拓展国际市场,与全球多家知名企业建立合作关系,实现了国际化发展。
  3. 合作与竞争:在电子行业中,DVSI与其他企业的合作与竞争并存。他们通过合作共赢的方式,共同推动行业的发展;同时,也面临着来自竞争对手的挑战和竞争压力。
  4. 企业文化与团队建设:DVSI注重企业文化建设,倡导创新、协作、共赢的价值观。他们注重团队建设,吸引了一批优秀人才加入公司,为公司的发展提供了有力的人才保障。

以上故事和框架概述仅供参考,您可以根据这些线索进一步挖掘和编写关于DVSI公司的故事。

Floeth Electronic Ltd公司的发展小趣事

Floeth Electronic Ltd公司的发展故事

故事一:技术创新与产品线拓展

Floeth Electronic Ltd自1987年在德国迪特FLOETH成立以来,始终致力于电力自动化领域的技术创新。公司最初专注于DC-DC转换器的研发与生产,针对工业、汽车及机载设备设计了能在极端温度(-40℃至+105℃)下稳定工作的产品。随着市场需求的变化,Floeth Electronic逐步扩展了其产品线,推出了包括转换器、驱动器、控制器、放大器、过滤器、逆变器和脉冲变压器在内的多种电力自动化产品。这些产品不仅满足了工业客户对高性能和可靠性的需求,还因其高绝缘性和符合EN/UL/CSA等安全法规认证而备受信赖。

故事二:台湾生产单元的建立

为了进一步提升产能和效率,Floeth Electronic于1994年在台湾桃园设立了生产单元。这一战略举措使得公司能够更灵活地应对亚洲市场的需求,并利用台湾成熟的电子制造业供应链优势。台湾生产单元专注于高精度、高效率的电力自动化产品生产,不仅提高了产品质量,还降低了生产成本。这一举措不仅增强了Floeth Electronic在全球市场的竞争力,也为其后续的发展奠定了坚实基础。

故事三:IGBT驱动器及控制器的高电压应用

在电力电子领域,IGBT(绝缘栅双极型晶体管)的应用日益广泛。Floeth Electronic凭借其深厚的技术积累,成功研发了高电压应用的IGBT驱动器及控制器,最高可达8kVAC MS。这些产品广泛应用于高压电力传输、工业电机控制等领域,以其卓越的性能和稳定性赢得了市场的广泛认可。这一技术的突破不仅提升了Floeth Electronic在电力自动化领域的地位,也为其在新能源、智能电网等新兴领域的发展提供了有力支持。

故事四:脉冲变压器的广泛应用

Floeth Electronic的脉冲变压器在雷达、变换技术等领域有着广泛的应用。这些变压器通过匹配负载电阻与馈线特性阻抗、升高或降低脉冲电压、改变脉冲极性等方式,实现了对复杂电路的高效控制。此外,脉冲变压器还广泛应用于变压器次级电路和初级电路的隔离应用,以及作为功率合成及变换元件等。这些产品的广泛应用不仅展示了Floeth Electronic在电力电子技术领域的深厚实力,也为其在更多领域的发展提供了可能。

故事五:国际合作与市场拓展

随着全球电子市场的不断融合与发展,Floeth Electronic积极寻求国际合作机会,以拓展其市场版图。公司与中国、美国等多个国家的知名企业建立了紧密的合作关系,共同研发和推广电力自动化产品。这些合作不仅为Floeth Electronic带来了先进的技术和管理经验,还帮助其更好地了解不同市场的需求和趋势。通过国际合作,Floeth Electronic不断提升其品牌影响力和市场竞争力,为全球客户提供更加优质的产品和服务。

问答坊 | AI 解惑

LPC2366的几个问题

1. LPC2366的三个VDD(DCDC)(3V3)引脚是否一定要接3.3V电源?周立功的资料说这三个引脚不使用可以悬空。。。但是当这三个引脚悬空时整个单片机根本就没有工作,H-JTAG无法识别芯片,ISP也无法连接,说明这三个脚应该是给内部某些关键模块供电的 ...…

查看全部问答>

微软社区精英计划深圳地区招募

微软社区精英计划的目标是培养和聚合优秀博客或书籍作者、技术视频录制者、技术讲师,提供发展平台。微软会为社区精英提供相应的培训,并为活动提供各种支持。 目前社区精英计划的上海,北京,深圳组织已近成立,相对于上海和北京的众多参与者,深 ...…

查看全部问答>

wince文件储存速度

在ce下写了一个小程序,进行简单的文件存储,但是每次保存一定量的数据时就会出现一次储存时间偏长,不知道有没有人遇到过?这是什么问题呢…

查看全部问答>

高薪诚聘,windows底层开发人员 62963695-876

3年以上应用软件开发经验和1年以上驱动开发经验 精通C语言,熟悉汇编语言和Java语言 熟练使用VC6,eclipse等开发环境 熟练使用windbg调试驱动程序和应用程序 熟悉OOA,OOD,OOP 熟悉Windows应用程序开发 熟悉Windows文件过滤系统驱动开发和Win ...…

查看全部问答>

vxWorks中与dos中的gotoxy和cprintf等价函数是什么?谢谢

由于程序显示的内容较多,用printf翻屏太快,无法看清。 但是也不想利用WindML开发图形。所以想寻找一个类似MSC中的“textout”或者标准C中的gotoxy和cprintf,实现数据在屏幕固定地方的输出。 谢谢各位提供帮助!…

查看全部问答>

sqlce数据问题:数据库到底装在那里?

各位高人,请指点一下,我打算在嵌入式设备上使用sqlce数据库,是不是要在嵌入式设备上安装好sqlce并且在该设备上建立相数据库?可是我是在电脑上开发应用程序,怎么通过电脑来操作这个数据库呢?    还是在电脑上安装sqlce和相关的东西 ...…

查看全部问答>

想自己做一个通过单片机来测量10A以下交流电流的电路。

想自己做一个通过单片机来测量一个10A以下交流电流的电路。 我是这样想的,通过一个穿心电流互感器来得到5mA~10mA的电流,然后整流,滤波,最后串一个电阻来得到电压值,把这个0~5V的直流电压输入单片机(atmege128)进行测量。 不知道我这样的 ...…

查看全部问答>

改进封装技术 提高HB LED光通量

replyreload += \',\' + 713755;Timson,如果您要查看本帖隐藏内容请回复…

查看全部问答>