历史上的今天
返回首页

历史上的今天

今天是:2025年04月23日(星期三)

正在发生

2018年04月23日 | 从感知到交互,多模态协同到底离我们有多远

2018-04-23 来源:eefocus

技术这个事情,很多时候不是一蹴而就的。

 

更多时候,是大家先看到了一个东西非常美好,结果左发展右发展也发展不起来,在吃瓜群众们兴奋地送上一首《凉凉》之后,搞不好哪天却突然一个胜负手抛出来,一切又都不一样了。

 

 

曾经的移动通讯、触屏交互莫不如是,今天的3D打印、VR说不定也在重复这个套路。更明显的可能是物联网。这个我们念叨了好多年,虽然也一直在发展,但始终没有大热的技术,到底在等待什么呢?

 

等待AI?但是音箱刮过一阵语音交互的风潮之后,IoT设备搭载语音控制模块也火了起来。可是直到今天,我们好像发现物联网还是那个物联网,基本没什么变化。

 

让我们往更深层开个脑洞,“AI of Things”在等待的,可能不仅是语音交互,而是耳目鼻口耳协同工作的多模态AI交互。

 

你不温柔,我不主动:为什么我们始终远离IoT?

 

 

首先我们要搞懂一件事:为什么给设备联网的方案推行了这么多年,我们身边,包括工业和工程领域,真正用到的物联网设备还是没有多少?

 

答案在于,光给机器设备联网是没用的。你家的桌椅板凳又不想聊微信逛淘宝看快手,它们要网作甚?

 

人最终需要的是服务,所以设备仅仅联网是没用的,联网之后必须能干点什么才行。这就需要两件事情:

 

人与设备可交互;

 

2. 设备能够感知到人的需求。

 

在触屏、键盘和手机集成遥控模式,都被证明太麻烦之后,物联网开始把目光投向了能够提供自然交互与感知能力的AI。

 

机器能够听懂人类说话,并且产生对话并提供服务,似乎某种意义上从源头解决了物联网设备缺乏实际价值的尴尬。于是我们见到了越来越多搭载语音交互平台,能够实现对话的物联网设备。从电视、冰箱到家居设备,再到各种终端不胜枚举。

 

但实践下来发现,这种模式问题还是不少:

 

比如语言控制不如屏幕控制那么精准,很多时候会误判指令和错误唤醒,比较语言充满了不确定性;

 

再比如,语音交互的物联网设备还是缺乏主动服务的能力,只是换了操作方式而已,用户体验没有本质提升。

 

仅仅是“能听”,并且还经常听错的物联网设备,就像是两个人谈恋爱,其中一方从来不看你,不会知冷知热、嘘寒问暖,还经常搞错对方的意思,那另一方当然表示我懒得理你……

目前来看,把按钮换成了语音命令平台,隐藏的不确定性太多,而实际价值太少,很难成为物联网爆发的真正依托。

 

这种“你不温柔我不主动”的人机关系究竟怎么改变呢?

 

答案也许是让机器能够听和说之外,还要能看,能感觉,甚至能将五感联系到一起进行思考。

 

感知到交互:机器的五感俱全

所谓“模态modality”,是德国生理学家赫尔姆霍茨提出一种生物学概念。即生物凭借感知器官与经验来接受信息的通道,比如人类有视觉模态、听觉模态等等。

 

后来这个概念引申到人文科学领域,成为哲学和文学上的一种话语批评方式;而来到机器人和计算机科学领域,就成了机器与物理世界联系的通道。

 

假如我们把“模态”通俗地理解为感官,那么智能音箱就是只具备听觉模态的物联网设备,而加载AI分析能力的摄像头可以视为视觉模态的物联网设备。把听觉、视觉甚至更多模态组合到一起,多模态物联网也就诞生了。

 

事实上,在AI研究当中多模态转换是非常普遍的课题。比如一个很出名的AI研究方向是让智能体根据看到的某张图片来生成文字(也有看到文字生成图片和视频的),这就是让AI模型完成在视觉和语义之间的模态转换。

 

运用到物联网设备当中,今天主要的AI感知模态有三种:

 

语音交互,包括语音指令控制、语义理解、多轮对话、NLP、语音精准识别等领域;

 

2. 机器视觉,包括自然物体识别、人脸识别、肢体动作识别等;

 

3. 传感器智能,包括AI对热量、红外捕捉信号、空间信号的阅读与理解。

 

把这三种东西融合在一起,物联网设备就可以在单纯的能听会说之外,同时还用摄像头观察、用传感器判断。而比较前沿的多模态感知研究当中,还包括机器嗅觉,机器触觉和情绪理解等内容。

 

我们在等待的下一代物联网设备,很可能诀窍就是把这些模态给揉在一起,完成从多模态感知到多模态交互的体验。用一句我们十分熟悉的话说,就是要让机器身上的五感“生态化反”……

 

今天让人乐观的多模态交互型IoT

 

又能听,又能看,又有传感器的设备,听上去似乎有点过分乐观了。但好在综合了较多采访与观察之后,我们发现今年确实是值得为多模态物联网设备乐观一下的时候。

 

可以看到,很多双模态交互,甚至多模态混合交互的解决方案都在从实验室里走出来,甚至已经可以在我们生活中看到。这些解决方案更重要价值是作为案例,可以让更多企业、开发者和垂直行业看到多模态物联网的可复制价值。

 

举例来说,离我们最近的多模态AI交互技术投射在物联网设备上,大概就是用机器视觉技术进行嘴唇识别,来分离语音交互指令。我们可以看到很多实验室和科技公司,都在尝试用机器视觉来读取说话人的唇语和动作,从而判断每个声音指令的来源。

 

这种技术已经在国内被运用到地铁售票解决方案中,通过机器视觉来识别买票人,从而在地铁站的嘈杂环境中完成语音售票。

 

另一个我们能看到的例子是空调。在一些新的智能空调解决方案中,空调会在语音交互的基础上通过机器视觉来判断用户的位置,提供智能送冷,并且会结合传感器判断屋内温度和湿度,提供更精准的环境方案。

 

同样是在家电上,今年电视背后的AI平台战打得风生水起,把机器视觉技术引入电视成为了新的趋势。通过机器视觉来让电视观察屋内照明情况、用户与电视的距离,电视可以主动调节屏幕光线强度,输出比较护眼的模式。还有的AI应用是让电视在观察到儿童看电视后主动开启童锁。

 

在日常生活之外,多模态交互设备也在应用于工业设备中。比如通过给机器设备搭载机器视觉+传感器提供安全警告,以及利用机器视觉+故障信号的方式判断设备问题等。

 

把不同信号模态整合在一起,实现设备的多维感知,今天正在以比较快的速度来到应用市场。

 

高精度判断用户命令,输出主动服务;提供实时化、弹性化的体验,可以说是AI带来的多模态交互技术放进物联网世界中的一张鬼牌。

 

当然了,还是有几道难关……

 

按照惯例,最后我们还是要正视任何技术都存在不足。刚刚有一点萌芽的多模态交互+物联网当然也不例外。

 

最核心的一个问题,是我们到底靠什么实现多模态协同?

 

目前来看,无论是家电还是工业设备,实现多模态混合的主要方式还是把不同的传感源输入到设备处理中心,启动一定程序来开启相应服务。

 

换句话说,AI模型本身是没法理解多模态信号的,只是不同的算法启动不同的开关而已。这种“伪AI多模态”的设备也不是不行,只是在实时化和复杂的推理判断上会有心无力。

 

解决方案可能是一种叫做“多模态深度学习”的技术,让AI智能体本身能够理解多模态信号,从算法本身就容纳听觉、视觉、传感信号进行统一思考。这样可以保证设备高度实时化,并且可以让设备进行多模态协同学习,真正地“聪明”起来。

 

这要求在算法上对多维度数据的各自表示、融合、对齐有新的突破,今天我们还只能等待学术界的好消息。

 

另外一个问题,是今天的多模态交互缺少有效的开发平台,开发者和企业很难复制这一模式,来进行独立的物联网解决方案开发。当然,目前来看这应该仅仅是个时间问题。

 

与之相对应的,是在缺乏行业标准、开发基础的前提下,今天开发一个多模态物联网项目需要大量的人才成本和综合开发成本。并且缺少芯片、专用传感器等后端硬件的支撑。这个领域国内有一些芯片和算法公司,但似乎大部分处在做PPT的画饼阶段。

 

综合来看,AI带来的多模态想象力,大概确实可以完成一些物联网很早就希望实现的东西。但方兴未艾的产业局势,还需要巨头搭建平台、优质案例出现、开发者路径明确等几个环节才能开启下一轮风口。

 

但无论如何,耳聪目明的机器,已经在跑步过来的路上了……


推荐阅读

史海拾趣

启攀微电子(Chiphomer)公司的发展小趣事

启攀微电子(Chiphomer)公司成立于2003年,当时正值中国集成电路产业快速发展的初期。创始人张杨带领着一支由英美归国的留学精英和国内资深管理与技术人员组成的团队,立志要在这一领域闯出一片天地。然而,初创时期的资金短缺、技术壁垒和市场认可度低等问题,让公司面临着巨大的挑战。然而,他们凭借着对技术的执着追求和对市场的敏锐洞察,成功推出了首款SDH通信芯片,为公司的后续发展奠定了坚实的基础。

ELM [ELM Electronics]公司的发展小趣事

ELM始终将品质管理作为公司发展的核心。公司建立了完善的质量管理体系,从原材料采购到生产、检测、包装等各个环节都进行严格的质量控制。同时,ELM还注重客户需求和反馈,不断优化产品和服务,以满足客户的个性化需求。这些举措使得ELM的产品在市场上享有很高的声誉和口碑,客户满意度持续提升。

Eink公司的发展小趣事
进入21世纪,E-Ink继续推动电子纸技术的发展。2000年,E-Ink与美国朗讯科技公司合作,成功开发出第一张可卷曲的电子纸和电子墨。随后,在2001年,E-Ink与日本Toppan Printing公司合作,利用Toppan的滤镜技术生产出了彩色电子纸,这是电子纸技术的一大突破。
Atmel (Microchip)公司的发展小趣事

Atmel(Microchip)一直注重技术创新和产品升级。公司不断投入研发资金,推动新产品的研发和现有产品的改进。通过引入新技术、优化产品设计等方式,Atmel的产品在性能、功耗、可靠性等方面都得到了显著提升。这些创新成果不仅满足了客户日益增长的需求,也为公司赢得了更多的市场份额。

Comax Industrial Co Ltd公司的发展小趣事

Comax Industrial Co Ltd公司自创立之初,便明确了其在电子行业中的定位与发展方向。公司初期便注重技术研发,引进了一批高素质的技术人才,并投入大量资源进行技术研发与创新。通过不懈的努力,Comax成功开发出一系列具有竞争力的电子产品,并在市场上获得了良好的口碑。这些产品不仅满足了客户的需求,也为公司的发展奠定了坚实的技术基础。

联捷(Elinker)公司的发展小趣事

近年来,随着人工智能和物联网技术的快速发展,电子行业迎来了转型升级的机遇。联捷(Elinker)紧跟时代潮流,积极推进智能制造和数字化转型。公司引进了先进的自动化生产线和智能化设备,提高了生产效率和产品质量。同时,公司还加大了对人工智能和物联网技术的研发力度,推出了一系列具有创新性的智能电子产品。

问答坊 | AI 解惑

一个PLC梯形图到C语言的转换工具,欢迎指正!

不知道有人用过PLC没有,这是我们开发的一个梯形图逻辑到C语言的转换器,对于一些纯粹的位逻辑控制算法,可能有些帮助。同时,网站上也有一些PLC的使用教程和开发资料,希望对大家有用。 项目介绍[http://www.visiblecontrol.com/product ...…

查看全部问答>

测量小电阻的目的和用途

那么为什么要测试小电阻,还是玩吗? “玩”是一个大主题,测量小电阻的原因,最主要的就是大电流。 小电阻从来都是与大电流密不可分的。 当然,这里所说的大电流并非很大,而是精密大电流。一旦到了精密的概念,电流就比较小了。比如手持表测试 ...…

查看全部问答>

菜鸟提问:有朋友说根据器件清单,可以猜到题目?

本帖最后由 paulhyde 于 2014-9-15 09:38 编辑 是不是真的? 依据什么原则呢?  …

查看全部问答>

测试一下是否能够发帖,请版主见谅

测试一下是否能够发帖,请版主见谅…

查看全部问答>

关于RAS Server

现要设计一个在WinCE 5.0平台上的等待拨入的拨号服务器,但没有相关的经验,不知道哪位高人指点一二,多谢…

查看全部问答>

最近版主主去哪里了

                                 如题…

查看全部问答>

C8051f320USB通信

我用Silicon Lab...IDE调试C8051F320USB通信程序USBXPress安装到Silabs\\MCU出现大不开C8051f320.h,USB_API.h如何解决…

查看全部问答>

发一张51及其外围电路的原理图.丰富外设

新版 包含:最小系统、红外、led、时钟、eeprom、温度传感器、isp、矩阵键盘、lcd、电源、数码管,彩屏,pl2303、点阵、sd卡,ad_da...…

查看全部问答>

自制PCB究竟好不好呢?对自制PCB有什么看法?大家畅所预言

好几年前开始,我们公司的几位同事开始捣鼓自制PCB板,然后我们就掌握了自制PCB的技术,一开始是用热转印,后来发现那个东西实在很不保险,后来就开始买感光板,做出来的线路板果然很精密,但是感觉感光板太贵了,于是就发现了覆铜板+感光干膜做电 ...…

查看全部问答>