浅析智能电视语音中控解决方案

2024-07-11 来源：elecfans

摘要：我们正处在以智能制造为主导的第四次工业革命的浪潮中，随着人工智能、信息技术、生物技术等新兴技术的兴起，制造业进入到了全面智能化转型时期。如何让机器设备变得更加智能，为人类提供更舒适便捷的服务，就成为人们不断探索的课题。语言交流是人与人沟通的基础，自然而然地，智能语音就成为人与机器交互的一个重要载体。在智能电视领域，随着技术升级和应用场景的不断拓展，智能语音已经成为智能电视的核心能力之一，在人机交互中占据了越来越重要的地位。为了提升语音整体性能及业务能力，各大厂家不再满足于第三方语音技术方案提供的整套服务，开始加大对智能语音全链路的研发投入，以便对语音功能有更多优化和选择的空间。而在智能语音的整个链路中，云端控制和决策能力又是至关重要的一环，所以搭建私有化中控平台，成为各大厂家优先选择的方案。

1 前言

随着智能电视技术的迭代升级和应用场景的不断拓展，智能语音已经成为智能电视的核心能力之一。通过智能语音可以更便捷地完成人与电视的交互，所以智能语音能力的高低，成为评判电视智能化水平的一个重要标准。随着语音技术的进步和市场的发展，通过语音完成简单的控制指令已不能满足用户需求，人们希望可以通过语音实现更多的功能，而依靠终端设备软件升级的方式增加或变更服务又相对困难。在这种大背景下，各大厂家纷纷建立起私有化语音中控平台，希望通过自有中控平台持续优化语音技能，灵活地配置语音业务。下面就带大家了解一下智能语音全链路处理过程，简单介绍语音中控平台如何搭建以及各模块的基本作用，最后再讲一下语音中控软件的基本架构。

2 语音全链路解析

智能语音全链路包括端侧能力和云端能力两个部分，端侧指智能电视终端，主要负责声音采集并对声音信号进行处理，将音频信号、文字信息通过云端协议送至云端处理，并执行云端返回的指令或播报生成的结果。云端能力包括语音识别、语义理解、对话管理、资源调用、回复生成和语音合成几个模块，负责把一句话转成文字，并理解这句话的意图，完成对应的指令并返回相应的结果。语音解析是否智能，能不能准确理解使用者的意图，关键就在于云端能力的高低。语音全链路结构如图 1 所示，语音信号被声音采集模块收集后，经过信号处理模块的限幅、降噪处理，给到语音唤醒模块做唤醒词匹配，匹配成功后把语音送给语音识别模块，将声音信号转成文字信息，再由语义理解模块解析出关键词，由对话管理模块根据上下文输入理解用户意图，再通过应用程序编程接口（application programming interface, API）调用外部资源，并生成回复内容，返回终端执行相关指令的同时，播报由语音合成模块合成的语音回复。至此，一个完整的语音处理链路就完成了，当有新的语音输入时再重复以上过程。

2.1 语音识别

自动语音识别（automatic speech recognition，ASR）是将语音信号转换成文字信息的服务。语音识别根据实际应用场景，选择合适的声学和语言模型，将接收到的语音信号经过特征提取、多路解码、模型计算、权重比较后，得到一段置信度较高的文字输出。通过对声音信号的分析，也可以获取使用者的声纹、情绪状态、年龄段等信息；根据这些数据可以对用户群体进行细分及精细化运营，为用户提供个性化服务的同时，也能够提升运营质量。

2.2 语义理解

在进行语音交互的时候，仅仅把声音转换成文字是远远不够的，必须理解用户说的是什么意思，因此语义理解服务是语音交互链路中非常重要的一环。对于用户的应用场景，首先要定义出场景的语义空间，识别用户有哪些意图，然后采集数据进行意图识别和参数抽取，将输入的文字进行模型处理，输出文字中的关键信息。这一步就是把人的语言形式转化为机器可理解的、结构化的、完整的语义表示。

2.3 对话管理

对话管理控制着人机对话交互的过程，依据对话历史信息和当前用户输入，决定系统对用户输入的反应，这也是多轮对话的基础。在复杂任务完成的过程中，当用户的输入不够具体或明确时，系统通过对话管理对用户的需求进行询问、澄清或确认来明确用户的真实意图，完成用户的请求。对话管理包含对话状态跟踪、响应决策、语义槽填充、上下文管理、指代消歧等功能。

2.4 回复生成

根据上下文语境，结合用户实际使用场景进行定义，对执行用户输入结果给出反馈文字或动作。回复生成包含本地命令、控件定义、对话回复、默认播报、错误播报、对话控制等功能。

2.5 语音合成

语音合成是把文字信息转成标准语音输出的过程，相当于给设备装上了“嘴巴”。语音是否流畅、音色是否优美动听，就是由这个模块决定的。通过一定的数据输入和模型训练，可以合成特定人物的声音，让人和设备的互动更和谐。

3 语音中控平台搭建

3.1 企业中控平台构建

在讲语音中控平台之前，先要看一下企业中控平台的基本架构，因为语音中控隶属于企业中控，是云端大平台的一部分。一般企业云端控制平台会兼容多种业务需求，除了语音业务需求外，大多还要满足图像识别、AIoT（AI IOT，人工智能物联网）等其他智能业务需求。企业云端控制平台可以根据业务需求灵活定制，如图 2 所示，展示了一种云端中控平台的基本架构和与外部模块之间的关系。企业中控平台包括鉴权网关、控制引擎、决策引擎等控制模块，以及只为具体业务服务的单元模块，如图 2 中自动语音识别和语义处理平台、图像识别平台、AIoT 平台，分别为语音业务、图像识别业务和AIoT 业务服务。通过自有企业云端中控平台的整体控制，不仅可以很方便地实现对各个业务单元的灵活配置，还可以促进各种技术的融合和复用，推动终端产品性能和用户体验的提升。

图2 企业中控平台内外部模块关系

3.2 语音中控平台架构

在语音全链路的处理过程中，云端的能力非常重要，决定着语音处理结果是否智能，所以云端又被称为智能语音的大脑。我们所说的企业自有语音中控平台建设，主要是指建立云端语音处理和控制平台。按功能实现可以把语音中控平台划分成四个大模块，分别是语音识别、语义理解、意图决策和技能分发 / 决策模块，各个模块之间的关系如图 3 所示，远场拾音模块拾音后给到信号处理模块对语音信号进行处理，然后把语音信号送给语音识别模块，将声音信号转换成文本信息。这里远近场处理方式略有不同，近场语音拾音后直接输出给语音识别模块。转换出来的文本信息通过语义理解模块的解析、意图决策和技能分发模块的处理，把处理结果返回给终端设备，呈现具体信息或者执行相关动作。

在语音中控平台的四个模块中，自动语音识别模块负责将音频信号转换成文本信息，功能相对比较单一，前文也有介绍，这里不再赘述。语义理解、意图决策、技能分发 / 决策模块功能相对复杂，也是语音中控的核心能力，各模块细分功能如图 4 所示。语义理解模块包括 Query 分析、场景分类、意图识别、上下文识别、模板干预和槽位提取功能，一段语音信息通过槽位提取关键词后，根据不同的场景对意图进行分类，并结合上下文理解调整意图，从而准确判定一句话的真实意图。具备了槽位提取能力以后，在新业务拓展时可以脱离对第三方技能语言理解能力的依赖，实现灵活对接第三方业务，也可以根据业务需求自行训练对应槽位，方便新业务的开展。同时，根据场景对槽位进行细分后，可以实现对特定人群和使用场景的定制，提高服务的精准度以及运营转化率。意图决策模块包括多意图决策、上下文决策、个性化干预和用户画像生成几部分，主要是根据用户使用习惯，结合上下文对意图进行干预，从多个意图中选出最能匹配用户场景的意图，提高意图的准确度。技能分发 / 决策模块通过数据模型或人工干预的方式对决策结果进行选择，从而控制意图的分发，实现对第三方内容资源的灵活对接。

图4 语音中控核心模块

4 语音中控平台软件架构

语音中控平台软件在架构上主要分为三层，分别是底层技术层、核心能力层和需要二次开发的对接层，层级结构如图 5 所示。底层技术包括深度学习算法、语音识别技术、自然语言处理和基础数据模型，这部分是智能语音的基础技术，专业性较强，一般不需要特殊定制，可以借助第三方成熟的技术方案。核心能力层包括场景分类、意图识别、槽位提取、上下文判定、决策和技能分发、用户画像及个性化推荐模块，囊括了语音云端处理所有核心功能，语音处理上的性能优化和差异化功能的定制开发，都需要在这一层实现。在核心能力层之上的服务对接、模型训练、决策配置和数据分析模块，用来对接具体业务和服务，需要根据具体业务需求做二次开发。这一层要实现多种服务的灵活对接，对业务数据进行分析及模型训练，并根据业务类型和用户使用场景制定适当的决策机制，完成复杂或者具有多重语义语句的功能匹配。

5 结语

本文给出了一种搭建企业私有化语音中控平台的方案，在整个语音链路中，语音中控占据了举足轻重的位置。通过搭建自有语音中控平台，可以在不打扰用户的情况下通过云端灵活配置第三方服务和技能，提升智能语音优化迭代的速度，还可以根据具体业务和用户使用场景定制语音技能，为用户打造具有特色的语音服务。另外，使用私有语音中控平台，能够更加方便地管理用户数据，并保障语音数据的安全。所以，不管从资源整合、性能提升还是业务拓展等方面考虑，建立私有化中控平台都是大企业的未来趋势。

参考文献：

[1] 郭晶晶.语音识别技术发展对推广普通话的意义[J].传播力研究,2020(18).

[2] 杜灵君,武晓岛.语音识别技术全球专利布局趋势[J].科技中国,2021(12).

[3] 张大林,任萱,徐艺敏,等.企业内网系统语音识别技术的设计与实现[J].数字技术与应用,2021(12).

[4] 袁冰清,于淦,周霞.浅说语音识别技术[J].数字通信世界,2020(02).

[5] 张昱,高凌燕,胡虎安,等.智能语音识别技术在邮政快递柜中的应用研究[J].电子世界,2020(04).

[6] 李博丽.传统计算机语音识别技术中的数学[J].花炮科技与市场,2020(02).

[7] 郝欧亚,吴璇,刘荣凯.智能语音识别技术的发展现状与应用前景[J].电声技术,2020(03).

[8] 彭洪松,李洪斌,李莉,等.人工智能中远场语音识别技术的研究[J].数字通信世界,2020(05).

[9] 于晓明.语音识别技术的发展及应用[J].计算机时代,2019(11).

[10] 田建勇,刘松,李洲越,等.智能语音提醒系统的设计分析[J].电脑知识与技术,2020(20).

[11 ] 李亚铭,李阳.智媒体时代人工智能在电视行业的应用研究[J].出版广角,2019(03).