历史上的今天
返回首页

历史上的今天

今天是:2025年04月18日(星期五)

正在发生

2019年04月18日 | 钢铁侠的AI助手贾维斯,离我们的生活还有多远?

2019-04-18 来源:eefocus

可能人人都希望自己有个“贾维斯”。

 

虽然已经退出漫威电影很多年,但是我们还是能够记起那个钢铁侠战衣里无所不能的AI助手。独特的幽默、优雅的语调,以及非常靠谱的人设,让无数科幻迷对这个看不见听得到的角色产生了无尽好感。

 

 

对贾维斯的迷恋有多疯狂呢?我见过贾维斯版本的电脑桌面程序,贾维斯模样的手机UI,以及以贾维斯命名的AI算法。设计师和极客们,迄今为止想了无数办法来“复活”属于自己的贾维斯。

 

然而画面越来越逼真的贾维斯界面,显然无法得到它的精髓:像朋友一样的沟通与陪伴。

 

假如说有某种技术希望能够在“本质”上寻找贾维斯,那么一定非语音助手莫属。

 

由于身处一个科技爆炸的年代,日常生活中我们可能不太留心某种技术的发展。但是如果一旦停下来回头看看,会惊奇地发现一门技术原来经历了相当惊人的变化。比如说手机中的语音助手,已经成为了日常生活的一部分。而如果回首一下它的历史,说不定会大吃一惊:原来用语音助手复活贾维斯,并不是说着玩玩的。回看这些年语音助手的成长,会发现在人性化交互、应用能力拓展,以及功能集成上,语音助手的体验确实在一步步逼近“贾维斯”这个终极目标。

 

最近好像流行写各种简史,那不妨让咱们今天来讲一段,关于“寻找贾维斯”的简史。不难发现,语音助手的进化轨道,其实已经非常清晰明确。

 

语音助手初长成

大家都知道,最早的语音助手是苹果推出的Siri。

 

想当年,在大家都没跟手机说过话的时候,Siri小姐姐真的可谓是叱咤江湖。《生活大爆炸》里甚至有一集,专门安排拉杰什和Siri谈了回恋爱。

 

然而要承认的是,技术必然有其阶段性。就像老爷车虽然经典,但是肯定无法开上21世纪的高速路。初始阶段的Siri,在今天来体验其实是很初级的。

 

语音助手这件事,之所以得到了苹果的大规模投入,其实主要是云计算系统的功劳。其实更早时候,语音助手的雏形已经出现。只是当时云计算体系没有铺开,只能把若干语音指令存储在手机中,这导致用户的问答模板过分单调。

  

 

而从Siri开始,语音助手完成了云端部署。这样可以在云端存储大量的对应模板,并且实时更新,从而让语音服务成为可能。

 

这时候的Siri虽然知道的多了,但是智商却十分堪忧。由于当时的语音助手完全是模板化的,换句话说你必须准确说出了问题,并且被Siri准确识别了,才能给你找出对应的答案。

 

然而套路终归是套路。那个时候,应用Siri的体验大概是这样的:

 

Siri,帮我给xx打电话

 

好的,已经拨打

 

Siri,帮我打个电话,我要联系xx

 

对不起,Siri没有听懂……

 

总之就是,模板不能错一点点,否则就是推到重来。好在,这种语音助手完全比拼模板数量的时代,很快就过去了——因为AI来了。

 

AI来了之后

早期语音助手的最大缺点,在于问答只能模板化。用户实际上不是在跟语音助手聊天,只是把遥控器换成了语音操作而已。这在某种程度反而是增加了用户的交互成本,同时也让用户心中对于“语音助手”这个概念的智能化期待大打折扣。

 

好在AI来了。

 

随着深度学习的复兴,以神经网络处理语音任务逐渐成为主流。随着AI加入,语音助手开始呈现语义理解、多轮对话,声音合成等能力,并且在这几条轨道上不断发展。于是我们看到了语音助手的听力越来越敏捷,很多情况能够和用户像正常聊天一样说下去。甚至方言、儿童音等问题都得到了一定程度的解决。

 

 

这个时期的语音助手,最具特色的代表应该是谷歌语音助手Google Assistant和微软小冰。前者去年曾经创造过模仿真人打电话而不露馅的“壮举“,而后者也常年活跃于聊天界,以不被发现是AI而著称。

 

这个时候的语音助手体验,已经有了比较明显的升级。比如用户说我想打个电话/帮我打个电话/帮我查一下某人的号码,然后打电话,语音助手基本都能明白。

 

而且在深度学习的帮助下,语音助手还能记住用户的聊天习惯,时不常还能跟用户逗个闷子,聊天时立个人设。

 

然而这并不是终点。随着AI语音助手的普及,尤其是在手机中的广泛应用,用户发现它能干的事情还是太少了。基本就停留在打电话、发短信、整理日程表等几种。然而这几种在今天已经是名副其实的边缘应用。

 

只能聊而没啥用的语音助手,就好像贾维斯只能陪着托尼瞎聊天,却无法启动钢铁侠战衣——这显然是严重影响票房的。

 

在移动AI觉醒的这两年,随着终端AI处理能力越发强大,事情开始有了更多发展。

 

折叠出人性化交互

在语音助手的进化上,有两件事决定了今天的故事走向。一个是客观上来说,无论是端侧还是云侧的AI处理能力都在变强。许多之前无法触发的AI应用开始变为现实,这些能力就像钢铁侠的装甲和武器,让语音助手有更多可以操纵的空间。

 

更明显的改变来自于消费者和厂商,对语音助手这件事发生了主观上的升级。过去语音助手作为一个“尝鲜品“,主要能力是显露自己多么智能强大。而在今天,已经习惯语音交互的用户需要的是”以我为主”,让语音助手提供服务,而不是炫技。

 

众所周知,我们在手机中的主要服务,是基于APP产生的。那么语音助手的下一步也就是要融合到APP当中,把服务抽象出来,带给用户方便。比如三星的Bixby最先尝试了打穿APP的方案。

 

这主客观两个条件结合,构成了今天语音助手的主要升级方案:折叠交互,融合应用,体现人性化。

 

在这条路上已经有了不少参赛者,而目前能够看到将语音助手这件事推到新高度的,是刚刚更新的EMUI9.1。

  

 

小艺这个名字,对于华为用户来说并不陌生。而EMUI 9.1版本的小艺经历了一个跨度非常大的升级。从整个语音助手发展历史的角度看,这些升级也可能十分重要。咱们还是基于几个场景的变化,来研究一下小艺刚刚带来了什么。

 

1、能听能说,也要能看

 

语音助手这东西,大家已经默认其能力就是听和说。然而实际上,一个真正的“助手“还需要一个基本的能力,那就是“察言观色”。

 

之所以语音助手一直缺乏“看”这个层面的能力,原因很大程度在于大部分手机还无法承载复杂的AI视觉计算。这个领域华为这两年一骑当先,自然也就孕育出让语音助手走向听说看全能的基础。

 

在EMUI9.1版本中,小艺开启了多模态融合交互。之前,用户想用手机识别花草、汽车之类的,需要点开摄像头或者专用APP。这个流程其实有点繁琐,而且很多一闪而逝的风景可能就要错过。

 

而新的小艺,则可以让用户长按电源1秒就唤醒它,直接对手机说“这是什么”,语音助手就会自动识别花草、汽车等等。这个能力更有用的地方是识别食物卡路里,可以直接语音问手机“我吃这个会不会胖”,然后小艺就会自动开启卡路里识别,报出食物的卡路里数量。小艺还会根据识物的卡路里级别,建议你少吃还是放心吃。估计也就是小艺才如此友善,同样的问题问朋友,他们大概会说“你吃空气也会胖”。

 

看的目标不仅是基于摄像头,同样也可以看到手机里的图片。小艺的视觉结合,另一个玩法是用语音搜图。比如用户可以说“找到我女朋友去年的照片”,手机就会在图库众多的图片中找到你想要的。

 

2、穿透APP来服务你

 

我们今天的生活,就是在无数APP中穿梭。同时也要承认,很多功能其实隐藏在APP深处,想要完成是有点麻烦的。

 

举个例子,在你口渴难耐时,想要去自动售货机买瓶水。一顿操作终于选到了合适的饮料,这时提示你要扫码付款,然后此时要先经历找到支付宝,打开支付宝,点击扫码——这个过程中每一秒都是煎熬。

 

而在EMUI9.1的升级中,小艺加入了更多用语音解锁APP场景的功能。比如上面这些操作,现在可以直接对手机说“扫码”,一句话唤醒。这个技能适用于各种着急买东西的场景,其中滋味大家不妨自己体会。

 

另一个很有代表性的场景是在微信里。现在微信语音似乎已经完全取代了电话,但是在茫茫然一片的微信里,想找到合适的人其实还挺难。要经历点开搜索,打字,完成搜索点入对话框,发起语音,一共四个步骤。而小艺则可以直接说一句“给微信里的某人打电话”来一步完成。

 

此外,不同应用中触发小艺,据说还有不同惊喜。

 

 

3、可学习和可定义

 

小艺的另一个升级点,在于学习用户语音习惯和使用习惯的能力得到了加强,同时开启了自定义组合技能的新模式。

 

比如我们周五下班坐进车里,这时候其实是有很多事先要用手机完成的。比如说,打开导航确认目的地,放首《今天是个好日子》听听,给哥们发微信约去看球,给老婆发短信说今天要加班不回家吃饭了……这种做法并不值得提倡。

 

可以看到的是,这一波操作虽然心情愉快,但是未免复杂了点。手速慢的人分分钟就会被晚高峰给追上。而在新版的小艺中,用户可以自定义这些操作,整合成同一个语音命令。比如说对小艺大吼“劳资下班了!”小艺就会自动进行用户设定的上述操作,又简单又解气。

 

从小艺的故事可以看到的是,手机语音助手走到今天,已经不仅仅是一个语音软件本身的智能程度问题,而是整部手机的能力,都要通过语音助手来集成和调动。把多种能力、多个应用,多个交互进行折叠,最终折叠出的才是更省时省力,更符合用户期待的自然交互。

 

而从语音助手诞生时的套模板,再到AI的入场,随后发展到手机软硬一体化的智能折叠时代,语音助手的变迁史中,似乎可以总结出一个公式。

 

语音助手的“贾维斯公式”

到底怎么才能做出大家心目中的贾维斯?通过手机和语音助手的不断耦合,我们可以发现这样几件事是先觉条件:

 

1、不断升级的AI综合体

 

从谷歌、微软、亚马逊激烈竞争的语音助手,到国内的智能音箱热潮、手机语音助手不断升级,而AI能力始终是这个故事的“主线剧情”。

 

而随着步入移动AI时代,语音助手现在的任务,从整合AI技术,开始发展到了整合AI应用、AI能力和AI技术的三合一模式。

 

回望华为手机开启AI进化的这两年,从EMUI在8.0时期开始,诸多智慧能力开始显现。到 9.0时代,开始加强视觉AI应用,并且对AI能力进行整合。而到9.1当中,语音助手开始整合更多AI应用。可以看出,AI的从无到有,从弱到强,从分散到整合,是手机助手进化的主线。

 

 

2、软硬件不分彼此

 

在手机当中,一款软件的能力总归有限,只有与应用、内容和硬件层面更好结合,才能真正让用户获得智能的体验和实际的应用价值。

 

这就好比只会逗闷子的贾维斯并不招人喜欢,天文地理无所不知,还能操纵钢铁侠战衣的才是“真·贾维斯”。语音助手之所以今天的领军者变成华为和EMUI,很大程度在于华为手机这几年在软硬件一体化能力上的积极探索,一定程度打破了旧有手机模式的藩篱。

 

当语音助手可以调动智慧视觉和各种应用,其价值就好像你的朋友突然由员工升级成了老总……

 

3、基于人性,去折叠每一个交互

 

要注意的是,语音助手始终伴随着一条炫技之路:由于AI带来的技术非常充沛,开发者很容易把语音交互搞得复杂无比。虽然初心是让消费者感受到技术爆发的魅力,但实际应用中消费者往往不胜其扰,只能敬而远之。

 

所以在语音助手的进化中,需要基于人性化的产品思考,基于用户感受去折叠和省略交互。只要技术复杂同时交互简单,语音助手才有亲和力可言。

 

至此,不难发现,这条寻找贾维斯之路,似乎可以被总结成这样的公式:智能技术更复杂,产品融合度更强,交互更人性=语音助手更像贾维斯。

 

并且我们有理由相信,所有寻找终归能够抵达终点。


推荐阅读

史海拾趣

Hifn Inc公司的发展小趣事

机顶盒,全称为数字视频变换盒,是现代家庭娱乐中不可或缺的重要设备。从广义上讲,任何与电视机连接的网络终端设备均可视为机顶盒,它们不仅限于接收和转换电视信号,还具备丰富的网络交互功能。

机顶盒的核心功能在于接收并解码来自有线电缆、卫星天线、宽带网络及地面广播的数字电视信号,将其转换成适合在电视机上播放的格式。这一过程包括接收、解码和显示三个主要步骤,确保了用户能够享受到高清乃至4K的超高清画质和震撼音效。此外,机顶盒还提供了诸如电子节目指南、因特网网页浏览等增值服务,极大地丰富了用户的观看体验。

随着技术的不断进步,机顶盒正朝着智能化、多功能化方向发展。例如,智能推荐算法能够根据用户的观看历史和偏好,提供个性化的节目推荐;语音识别技术则让用户能够通过语音指令控制机顶盒,实现更加便捷的操作体验。同时,机顶盒还支持家庭影院功能,让用户在家中就能享受到电影院般的视听效果。

总的来说,机顶盒作为连接电视与外部信号源的桥梁,不仅提升了电视节目的观看体验,还通过丰富的网络交互功能为用户提供了更加广泛的内容和娱乐选择。随着技术的不断发展和用户需求的日益多样化,机顶盒将继续在家庭娱乐领域发挥重要作用。

台湾肯尼威(CANNYWELL)公司的发展小趣事

面对不断变化的市场需求和技术环境,肯尼威始终坚持以创新为引领。公司不断投入研发资源,推出了一系列具有创新性的产品。例如,针对特殊需求的客户,公司推出了定制化的电源滤波器解决方案;同时,还开发了新型的三相电源滤波器等产品,满足了市场的多样化需求。这些创新不仅提升了公司的技术实力,也为公司赢得了更多的市场份额。

Gilway Technical Lamp公司的发展小趣事
观察压缩机是否有明显损坏或异常现象,如漏油、烧焦等。
HN Electronic Components GmbH & Co Kg公司的发展小趣事

背景:进入21世纪后,随着全球化和互联网的发展,HN Electronics开始寻求更广阔的市场空间。

发展:公司决定拓展国际市场,首先在亚洲市场设立分支机构,随后进军欧洲和北美。为了加速国际化进程,HN Electronics与多家国际知名电子企业建立了战略合作关系,共同开发新产品。

关键事件:2005年,HN Electronics与韩国某知名电子企业签署合作协议,共同研发新一代显示驱动芯片,这一合作极大地提升了公司在显示技术领域的竞争力。

福斯特(FIRST)公司的发展小趣事
确认传感器是否损坏或连接不良。
ENTRELECUK公司的发展小趣事

随着业务的不断发展,ENTRELEC UK开始寻求全球市场的拓展。公司通过与国外代理商建立合作关系,将产品销往世界各地。同时,公司还在海外设立研发中心和生产基地,以便更好地了解当地市场需求,提供定制化的解决方案。这些举措使ENTRELEC UK在全球电子行业中树立了良好的品牌形象。

问答坊 | AI 解惑

利用FPGA实现多路话音/数据复接设备

摘 要: 本文利用FPGA完成了8路同步话音及16路异步数据的复接与分接过程,并且实现了复接前的帧同步捕获和利用DDS对时钟源进行分频得到所需时钟的过程。该设计的控制模块由VHDL语言完成,最后利用Xilinx公司的ISE工具和Modelsim工具完成了该设计的 ...…

查看全部问答>

向前辈和同学们求助,,基于51单片机的数字电压表

内容:测量范围0-10VDC,误差5%,,设计直流电压变换电路,AD转换电路,接口电路,显示电路,设计电源,计算电源功率及效率。 我们单片机是考察课,但是这次的实习课程设计要求十分严格,要一周内做出,上课时候AD和接口和显示都是略过的,而且老 ...…

查看全部问答>

有关线控转向系统电机选择的问题

小弟正在学习设计简单的汽车线控转向系统。打算只使用两个电机(路感模拟电机和转向电机各一个),成本问题,但是别的信息看来,实际汽车实际用的是4个电机(2个路感模拟电机和2个转向电机)。不太明白每个电机设计两个就是为了更加安全,更加有保 ...…

查看全部问答>

这个问题很严重,请问怎么解决?

[img]file:///F:/Program%20Files/Tencent/QQ/Users/382864860/Image/@760GXD(G96Y24}MHQ[1DN0.jpg[/img] 昨天编程的时候出现了这个问题啊,弄了一天还是没弄好。希望大家帮帮忙!! 还有,用到事件管理器(EVA)的时候,要出现PWM波形,使用比 ...…

查看全部问答>

手把手教你写程序(zt)

手把手教你写程序 内容:从最简单的程序入手,手把手教你写程序,让同学们拿到一个复杂的程序或者任务,能快速找到切入点,写出程序,再在此基础上优化程序。当拿到一个单片机任务时,不要急于动手写程序,先仔细分析它的以下几个点: 1、它要 ...…

查看全部问答>

【请教】关于GSM模块操作的问题

在使用GSM模块的时候,有一个担心: 在我发送短信的时候,消息发送动作已经完成,但是模块还没有返回OK时,如果恰巧有新的短信到来,会不会先返回一个收到短信的 “+CMTI: \"SM\",x”的信息,而后再返回发送短信成功的 “+CMGS: xxx”及 OK 信息?…

查看全部问答>

基于ZIGBEE的智能家居应该选择哪种拓扑结构为宜?

大家好。小弟要写一篇硕士毕业论文。内容是关于ZIGBEE的智能家居系统。 我看了一些1,2年前的文献,他们大都采用星型的拓扑结构。 我想问下,如果采用星型的话,那么在房间内的那些终端节点,会不会因为墙的阻挡,而在与中央的主控制器的通信过程 ...…

查看全部问答>

WinCE5中的CEC文件如何做出Choose 1的效果

WinCE5 CEC文件中如何做把几个组件做成Choose 1的效果。 比如:File System-Internal ( Choose 1 ) 是如何做出来的。 …

查看全部问答>

几个uc/os-II的问题(实在找不到答案)

uc/os-II中任务调度是分时的还是占先式? uc/os-II中设计一个任务需要考虑哪些问题? uc/os-II中任务通信有哪些方式?…

查看全部问答>

vs2005如何连接wince5的模拟器?

现已经安装vs2005,想用wince5来开发程序,暂时没有设备,使用想用模拟器,但是vs2005里没有wince5的模拟器,各位大侠请指点小弟,不甚感激!!!…

查看全部问答>