公交车站的报站声音,儿童玩具的呵呵笑声还有语音报警声音,这些都和语音合成技术与芯片有关系。
语音合成芯片的核心技术是语音数据压缩, 这项技术在二战前就开始被研究,但其转化为芯片并被实际产品采用却是在70年代末 由于受到存储器容量的限制,当时比较流行的是参数合成方式,这是一种模拟人体发声器官,建立数学模型,并以此作为参数进行压缩合成的方法 但是这种方法的实际使用效果并不能满足人们的要求,最终在市场上受到认可的是基于ADPCM(Adaptive differential PCM)技术的语音压缩合成方式 在使用语音合成芯片时,最令应用开发人员头痛的问题是如何在有限的存储器当中,放入更多的语音数据 通常的做法是将播放内容中重复出现的地方进行切割,在需要利用的时候,对这些重复内容进行复用 虽然这个做法可以解决问题,但一般在使用当中,如果有大量需要复用的语音段出现时,将会使播放控制程序非常冗长 而且在不同的地方进行复用时,音调、语速等都会有微妙变化,这些变化如果不加以区分处理,就会在播放时造成不自然和失真 因此在播放不同内容时需要适当加入不同的延时 。
如何将同样的核心设计适用到不同地区的市场,是很多设备生产厂商都要考虑的问题 对于使用语音芯片作为人机交互手段的产品来说,首要面临的问题就是如何设计多国语言的版本 到目前为止,当提示语言改变时,将不可避免地造成控制软件的修改,而且针对不同语言的产品必须准备不同版本的语音芯片,给库存和管理都造成压力 。 语音芯片的应用开发人员面临的一个棘手问题是如何决定在开发测试阶段和规模量产阶段进行切换 语音数据需要进行较长时间音质评估和适用性测试,这个过程一般都是使用Flash或者OTP(One-timeーprogramming)方式的存储器,以便快速对语音数据进行评估 一旦评估结束后,在量产产品中一般都倾向于使用性价比更高的MaskROM存储器 但是MaskROM的漫长生产周期,起订数量的限制和不便宜的掩膜费用都加重了开发人员的压力,客户要求的频繁变更更是雪上加霜 以至于很多应用设计直接将Flash或者OTP方式的语音芯片应用到了量产产品中,而这样又对量产的效率和品质管理直接造成了影响 。
本帖最后由 jameswangsynnex 于 2015-3-3 20:00 编辑