历史上的今天
今天是:2024年11月03日(星期日)
2020年11月03日 | 能力深耕,开放赋能--构建智慧家庭生态系统
2020-11-03 来源:eefocus
随着我国人工智能发展规划的出台,以及各项关键技术的日趋成熟,物联网时代逐步成为继移动互联网时代的下一个浪潮,人机交互开启新一轮的需求革新,从鼠标、键盘、触屏的传统交互向语音交互演进,社会正在飞速进入智能语音交互时代。
以“语音+内容+智能”为切入点,打造自主设计、自主整合、自主运营的一站式语音交互共享平台,构建可运营、能变现的语音交互生态,赋能多形态终端产品,打造能听会说的人机交互体验,是未来智慧家庭发展的大趋势,也是中国移动智慧家庭运营中心推进数字家庭生态建设的重点方向。
1、语音交互是智慧家庭生态布局的关键入口
1.1 人机交互需求不断革新
伴随着交互场景的拓展,人们逐渐对交互自由度提出了更大需求,语音交互越来越贴近人类的本能表达。语音交互凭借其输入速度快、场景限制少、技术链条发展成熟等优势,成为智能时代的理想交互途径,并逐步向交互智能、终端多态、服务泛在的方向发展。

1.2 家庭场景服务更加智能
语音交互是将人工智能技术底层产业化的关键,语音助手连接多形态终端和广泛业务,可提供内容服务、互联网服务,以及场景化智能家居控制等服务,为家庭用户提供互动娱乐、互动教育、家庭健康、家庭安防等新型产品体验,其中智能音箱成为首款爆发单品,并逐步向更多产品形态延伸。

2、核心技术攻关提升体验
智能语音交互主要涉及语音识别、语义理解和语音合成等技术。语音识别技术能将语音流转换为文本,语义理解技术可分析语句的含义、剖析用户意图,语音合成技术将解析结果以语音的方式反馈给用户,从而实现与用户的智能语音交互。

2.1 语音识别——听得清
智能语音交互平台现采用基于 Transformer 算法的端到端模型,具备识别速度快、识别准确率高的特性。该模型采用基于上下文理解的自注意力机制,提升了语义特征提取能力,解决了传统模型中声学模型和语言模型无法联合优化的问题,并且该算法能更好地利用先进硬件实现并行计算,从而提升运算速度。
2.2 语义理解——听得懂
平台采用基于规则+深度+关键词匹配算法的多算法融合模型理解用户意图,规则算法对于较短文本可实现快速准确的匹配,深度学习算法可对词表无法覆盖的新词进行识别,关键词匹配算法对于词表顺序颠倒、文本长尾问题,能快速准确地识别文本意图。
2.3 语音合成——说得明
平台采用端到端合成系统,可直接输入文本或注音字符,直接输出音频波形,该系统降低了对语言学知识的要求,能批量实现几十种甚至更多语种的合成系统,并且它表现出丰富的发音风格和强大的韵律表现力,加快不同声音的合成。
3、语音 OS 锻造,赋能语音生态
3.1 语音助手,赋能多形态终端
智能语音交互平台面向多形态终端提供语音助手,采用 Hook 技术分离各个子模块,实现语音点播、通话、听书、对话等功能,协助平台构建声纹、情绪、体感等多模态识别交互和相应反馈、推荐业务,兼容主流操作系统,支持自定义接口扩展,大大缩短接入周期和研发成本,快速赋能生态硬件及应用的语音交互能力。

3.2 语音插件,赋能海量应用
平台面向海量应用提供语音交互插件,制定标准开放协议,基于 IPC 实现第三方应用与 Launcher 的跨进程通讯,当用户调用语音控制,由平台下发热词及词槽信息,Launcher 进行动态匹配并下发至第三方应用,可进行直播、点播、播控等,从而实现所见即所得。

4、整套场景封装,提供系统解决方案
4.1 全屋智能
基于智能语音交互能力和 Andlink 智能家居云平台,提供智能音箱、智能面板、智能照明、智能开关等一体化全屋智能解决方案,实现跨厂商设备的接入和语音控制,可与智能门禁、摄像头等结合,实现家庭安防组合等细分场景。

4.2 AI 客厅
打造智慧屏,通过语音遥控器、智能音箱与智能电视结合的方式,实现电视播控推荐,将语音能力赋能教育、电商、音乐、游戏、健康等大屏应用,发挥轻量级语音技能,实现一说即得的用户体验。

4.3 智能对话服务
提供融合语义推导与语义匹配的对话理解技术,预置涵盖音视频娱乐、设备控制、生活服务等领域的对话能力及词典,高效定制对话能力,在智能助手、在线客服、语音家教等领域可广泛应用。

5、结束语
智能语音交互系统攻关语音识别、语义理解、语音合成等技术,快速赋能多形态终端,应用于 “能听会说”、“能理解会思考”的 AI 交互体验,实现从概念、技术到商业产品、功能应用的跨越,形成一个以语音交互技术为核心的全新应用生态链,促进人工智能产业的迅猛发展。
在 5G 快速发展的背景下,高带宽和低时延特性促使智能语音交互技术不断攻克新的难题,开启新的篇章。在“理解”层面,重点打造“支持打断和智能纠正”的认知型对话引擎,实现自然交互的本质要求;在“应用”层面,语音交互内容技能生态将渗透各个领域,并进行场景化的封装,真正实现海量服务“开口即得”的交互体验;在“接入”层面,语音助手持续扩大枢纽作用,赋能更多形态终端和交互应用规模起量,实现万物均能说话;在“沉浸式”层面,将融合语音识别、人脸识别、表情分析、唇动状态、眼球跟踪、手势识别、触觉监控等智能人机交互手段,完善“端 - 端”、“端 - 云 - 端”的交互协议,打造沉浸式多模态互动体验。
当人机交互越来越贴近自然表达,中国移动智慧家庭运营中心将持续深化智能语音生态体系建设,引领未来美好生活。
史海拾趣
|
在组合逻辑中,有时候需要使输出一脚的驱动能力加强,就要用集电极开路的输出引脚。 但是两者差别不大,只是在调用时,从不同的库中调用。 集电极开路的输入与非门电路调用STD库的std_ttloc包集合,二一般的输入与非门电路则调用std库的std-tll包 ...… 查看全部问答> |
|
使用winio方式动态加载ctrl2cap.sys,无法createFile 各位高人我现在学习键盘过滤驱动,用ctrl2cap改的,可是我却不能动态加载,我使用winio的形式做,发现能启动服务,但是在services.msc中找不到(我用同样方式做的一个应用程序的服务,就可以找到). 但是却不能打开hanlde. HANDLE hDriver = CreateF ...… 查看全部问答> |
|
有一组数据,存放在文本文件里面,格式是: \"时间1\" \"数据1\" \"时间2\" \"数据2\" . . . \"时间N\" \"数据N\" 要求打印相关数据的曲线图~~ 想了半天头都想痛了~给源代码的再加100分… 查看全部问答> |
|
关于shell里面 d 查看内存数据命令的详细用法 ---在线等 关于shell里面 d 查看内存数据命令的详细用法,没有在网上查到,很困扰 只知道简单的使用 d 0x1231231这个命令,但是显示多长,何种格式显示如何设置就不清楚了… 查看全部问答> |
|
上海新成立物联网公司招募创业团队!!!-待遇:工资+奖金+上市期权 上海新成立物联网公司定位为物联网行业解决方案供应商,为行业客户提供物联网应用全面解决方案!美国上市公司投资、注册资金1000万,目标2年内上市待遇:工资+项目奖金+上市前分配期权现招聘创业团队,.NET方面开发人员,RF工程师、硬件工程师、mcu ...… 查看全部问答> |
|
各位大哥大姐,我在网上买了一个 4路的循迹模块。 程序是一个学长给我们写的。 4路循迹不跟单片机连接起来的时候,每一路指示灯的灭亮显示的正常。 但是只要跟单片机控制端口连接一来 。 指示灯的亮灭 ...… 查看全部问答> |




