浅析智能电视语音中控解决方案
2024-07-11 来源:elecfans
摘 要:我们正处在以智能制造为主导的第四次工业革命的浪潮中,随着人工智能、信息技术、生物技术等新兴技术的兴起,制造业进入到了全面智能化转型时期。如何让机器设备变得更加智能,为人类提供更舒适便捷的服务,就成为人们不断探索的课题。语言交流是人与人沟通的基础,自然而然地,智能语音就成为人与机器交互的一个重要载体。在智能电视领域,随着技术升级和应用场景的不断拓展,智能语音已经成为智能电视的核心能力之一,在人机交互中占据了越来越重要的地位。为了提升语音整体性能及业务能力,各大厂家不再满足于第三方语音技术方案提供的整套服务,开始加大对智能语音全链路的研发投入,以便对语音功能有更多优化和选择的空间。而在智能语音的整个链路中,云端控制和决策能力又是至关重要的一环,所以搭建私有化中控平台,成为各大厂家优先选择的方案。
1 前言
随着智能电视技术的迭代升级和应用场景的不断拓展,智能语音已经成为智能电视的核心能力之一。通过智能语音可以更便捷地完成人与电视的交互,所以智能语音能力的高低,成为评判电视智能化水平的一个重要标准。随着语音技术的进步和市场的发展,通过语音完成简单的控制指令已不能满足用户需求,人们希望可以通过语音实现更多的功能,而依靠终端设备软件升级的方式增加或变更服务又相对困难。在这种大背景下,各大厂家纷纷建立起私有化语音中控平台,希望通过自有中控平台持续优化语音技能,灵活地配置语音业务。下面就带大家了解一下智能语音全链路处理过程,简单介绍语音中控平台如何搭建以及各模块的基本作用,最后再讲一下语音中控软件的基本架构。
2 语音全链路解析
智能语音全链路包括端侧能力和云端能力两个部分,端侧指智能电视终端,主要负责声音采集并对声音信号进行处理,将音频信号、文字信息通过云端协议送至云端处理,并执行云端返回的指令或播报生成的结果。云端能力包括语音识别、语义理解、对话管理、资源调用、回复生成和语音合成几个模块,负责把一句话转成文字,并理解这句话的意图,完成对应的指令并返回相应的结果。语音解析是否智能,能不能准确理解使用者的意图,关键就在于云端能力的高低。语音全链路结构如图 1 所 示,语音信号被声音采集模块收集后,经过信号处理模块的限幅、降噪处理,给到语音唤醒模块做唤醒词匹配,匹配成功后把语音送给语音识别模块,将声音信号转成文字信息,再由语义理解模块解析出关键词,由对话管理模块根据上下文输入理解用户意图,再通过应用程序编程接口(application programming interface, API)调用外部资源,并生成回复内容,返回终端执行相关指令的同时,播报由语音合成模块合成的语音回复。至此,一个完整的语音处理链路就完成了,当有新的语音输入时 再重复以上过程。
2.1 语音识别
自动语音识别(automatic speech recognition,ASR)是将语音信号转换成文字信息的服务。语音识别根据实际应用场景,选择合适的声学和语言模型,将接收到的语音信号经过特征提取、多路解码、模型计算、权重比较后,得到一段置信度较高的文字输出。通过对声音信号的分析,也可以获取使用者的声纹、情绪状态、年龄段等信息;根据这些数据可以对用户群体进行细分及精细化运营,为用户提供个性化服务的同时,也能够提升运营质量。
2.2 语义理解
在进行语音交互的时候,仅仅把声音转换成文字是远远不够的,必须理解用户说的是什么意思,因此语义理解服务是语音交互链路中非常重要的一环。对于用户的应用场景,首先要定义出场景的语义空间,识别用户有哪些意图,然后采集数据进行意图识别和参数抽取,将输入的文字进行模型处理,输出文字中的关键信息。这一步就是把人的语言形式转化为机器可理解的、结构化的、完整的语义表示。
2.3 对话管理
对话管理控制着人机对话交互的过程,依据对话历史信息和当前用户输入,决定系统对用户输入的反应,这也是多轮对话的基础。在复杂任务完成的过程中,当用户的输入不够具体或明确时,系统通过对话管理对用户的需求进行询问、澄清或确认来明确用户的真实意图,完成用户的请求。对话管理包含对话状态跟踪、响应决策、语义槽填充、上下文管理、指代消歧等功能。
2.4 回复生成
根据上下文语境,结合用户实际使用场景进行定义,对执行用户输入结果给出反馈文字或动作。回复生成包含本地命令、控件定义、对话回复、默认播报、错误播报、对话控制等功能。
2.5 语音合成
语音合成是把文字信息转成标准语音输出的过程,相当于给设备装上了“嘴巴”。语音是否流畅、音色是否优美动听,就是由这个模块决定的。通过一定的数据输入和模型训练,可以合成特定人物的声音,让人和设备的互动更和谐。
3 语音中控平台搭建
3.1 企业中控平台构建
在讲语音中控平台之前,先要看一下企业中控平台的基本架构,因为语音中控隶属于企业中控,是云端大平台的一部分。一般企业云端控制平台会兼容多种业务需求,除了语音业务需求外,大多还要满足图像识别、AIoT(AI IOT,人工智能物联网)等其他智能业务需求。企业云端控制平台可以根据业务需求灵活定制,如图 2 所示,展示了一种云端中控平台的基本架构和与外部模块之间的关系。企业中控平台包括鉴权网关、控制引擎、决策引擎等控制模块,以及只为具体业务服务的单元模 块,如图 2 中自动语音识别和语义处理平台、图像识别平台、AIoT 平台,分别为语音业务、图像识别业务和AIoT 业务服务。通过自有企业云端中控平台的整体控制,不仅可以很方便地实现对各个业务单元的灵活配置,还可以促进各种技术的融合和复用,推动终端产品性能和用户体验的提升。
图2 企业中控平台内外部模块关系
3.2 语音中控平台架构
在语音全链路的处理过程中,云端的能力非常重要,决定着语音处理结果是否智能,所以云端又被称为智能语音的大脑。我们所说的企业自有语音中控平台建设,主要是指建立云端语音处理和控制平台。按功能实现可以把语音中控平台划分成四个大模块,分别是语音识别、语义理解、意图决策和技能分发 / 决策模块,各个模块之间的关系如图 3 所示,远场拾音模块拾音后给到信号处理模块对语音信号进行处理,然后把语音信号送给语音识别模块,将声音信号转换成文本信息。这里远近场处理方式略有不同,近场语音拾音后直接输出给语音识别模块。转换出来的文本信息通过语义理解模块的解析、意图决策和技能分发模块的处理,把处理结果返回给终端设备,呈现具体信息或者执行相关动作。
在语音中控平台的四个模块中,自动语音识别模块负责将音频信号转换成文本信息,功能相对比较单一,前文也有介绍,这里不再赘述。语义理解、意图决策、技能分发 / 决策模块功能相对复杂,也是语音中控的核心能力,各模块细分功能如图 4 所示。语义理解模块包括 Query 分析、场景分类、意图识别、上下文识别、模板干预和槽位提取功能,一段语音信息通过槽位提取关键词后,根据不同的场景对意图进行分类,并结合上下文理解调整意图,从而准确判定一句话的真实意图。具备了槽位提取能力以后,在新业务拓展时可以脱离对第三方技能语言理解能力的依赖,实现灵活对接第三方业务,也可以根据业务需求自行训练对应槽位,方便新业务的开展。同时,根据场景对槽位进行细分后,可以实现对特定人群和使用场景的定制,提高服务的精准度以及运营转化率。意图决策模块包括多意图决策、上下文决策、个性化干预和用户画像生成几部分,主要是根据用户使用习惯,结合上下文对意图进行干预,从多个意图中选出最能匹配用户场景的意图,提高意图的准确度。技能分发 / 决策模块通过数据模型或人工干预的方式对决策结果进行选择,从而控制意图的分发,实现对第三方内容资源的灵活对接。
图4 语音中控核心模块
4 语音中控平台软件架构
语音中控平台软件在架构上主要分为三层,分别是底层技术层、核心能力层和需要二次开发的对接层,层级结构如图 5 所示。底层技术包括深度学习算法、语音识别技术、自然语言处理和基础数据模型,这部分是智能语音的基础技术,专业性较强,一般不需要特殊定制,可以借助第三方成熟的技术方案。核心能力层包括场景分类、意图识别、槽位提取、上下文判定、决策和技能分发、用户画像及个性化推荐模块,囊括了语音云端处理所有核心功能,语音处理上的性能优化和差异化功能的定制开发,都需要在这一层实现。在核心能力层之上的服务对接、模型训练、决策配置和数据分析模块,用来对接具体业务和服务,需要根据具体业务需求做二次开发。这一层要实现多种服务的灵活对接,对业务数据进行分析及模型训练,并根据业务类型和用户使用场景制定适当的决策机制,完成复杂或者具有多重语义语句的功能匹配。
5 结语
本文给出了一种搭建企业私有化语音中控平台的方案,在整个语音链路中,语音中控占据了举足轻重的位置。通过搭建自有语音中控平台,可以在不打扰用户的情况下通过云端灵活配置第三方服务和技能,提升智能语音优化迭代的速度,还可以根据具体业务和用户使用场景定制语音技能,为用户打造具有特色的语音服务。另外,使用私有语音中控平台,能够更加方便地管理用户数据,并保障语音数据的安全。所以,不管从资源整合、性能提升还是业务拓展等方面考虑,建立私有化中控平台都是大企业的未来趋势。
参考文献:
[1] 郭晶晶.语音识别技术发展对推广普通话的意义[J].传播力研究,2020(18).
[2] 杜灵君,武晓岛.语音识别技术全球专利布局趋势[J].科技中国,2021(12).
[3] 张大林,任萱,徐艺敏,等.企业内网系统语音识别技术的设计与实现[J].数字技术与应用,2021(12).
[4] 袁冰清,于淦,周霞.浅说语音识别技术[J].数字通信世界,2020(02).
[5] 张昱,高凌燕,胡虎安,等.智能语音识别技术在邮政快递柜中的应用研究[J].电子世界,2020(04).
[6] 李博丽.传统计算机语音识别技术中的数学[J].花炮科技与市场,2020(02).
[7] 郝欧亚,吴璇,刘荣凯.智能语音识别技术的发展现状与应用前景[J].电声技术,2020(03).
[8] 彭洪松,李洪斌,李莉,等.人工智能中远场语音识别技术的研究[J].数字通信世界,2020(05).
[9] 于晓明.语音识别技术的发展及应用[J].计算机时代,2019(11).
[10] 田建勇,刘松,李洲越,等.智能语音提醒系统的设计分析[J].电脑知识与技术,2020(20).
[11 ] 李亚铭,李阳.智媒体时代人工智能在电视行业的应用研究[J].出版广角,2019(03).
[12] 詹红艳.人工智能在电视人机交互中的实践[J].数字技术与应用,2019(03).
[13] 张蓝姗,黄高原.人工智能技术给电视媒介带来的机遇和挑战[J].中国电视,2018(07).
[14] 侯光敏.人工智能在电视人机交互中的应用[J].有线电视技术,2017(11).