历史上的今天
返回首页

历史上的今天

今天是:2025年07月05日(星期六)

2018年07月05日 | 攻陷无人区:百度大脑破解了这个AI技术应用顽疾

2018-07-05 来源:亿欧网

人与机器之间,有太多秘密隐藏在未知以下。

比如说AI带来的语义理解与语音唤醒式人机交互,虽然被大家说的很神,但其实有大量难关没有被攻破。AI语音交互,往往还以来初级的符码转化和模块调用,真正让机器像人一样去理解世界,还有很长的路要走。

好在对人机交互深层秘密的探索,在今天并没有停步。一些全新的技术应用化,正在加强人与机器如何交流、协作甚至相互理解的无尽可能。

在刚刚的百度AI开发者大会中,一个重磅升级是百度大脑升级了3.0版本。这次升级之所以引人注目,是因为其在业界首次提出了“多模态深度语义理解”。

多模态、深度语义理解,这些都是我们经常在AI论文中看到的名词,但似乎从来没有科技巨头把这个词作为关键信息进行产业披露。这是为什么?

其中的隐藏信息,是人机交互通往多模态结合、深度转译之路上,一座难以翻越的高峰。

多模态深度语义理解技术,就像一个沉睡的沙漏一样,始终隐藏在细沙之下,让人难以见到真正的应用魅力。而百度大脑的3.0升级,似乎将这个沉睡经年的沙漏倒转了过来,最神秘的AI领域,开始在技术沙粒的流逝间展露了本来面目。

人机交互的秘密:AI界有个雪域高原

20世纪上半叶,社会符号学提出了模态分析的话语批判方式,而后模态理论逐步走入各个学科,成为自然科学、计算机科学与人文科学的重要三岔口之一。而在自然语言处理成为AI重镇之后,多模态话语融合也开始被AI思想家们提上了日程。

我们知道,AI进行语音交互时的基本逻辑,是要把一切语音进行识别,转化为文字符码再进行文本理解。而语音理解与视觉、传感相关的模态融合更是难上加难,堪称人机交互进程中的“高海拔地带”。

但我们不妨思考一下,人的思维方式其实并不是单一模态的信息转化。而是五感并用,语音语义一体化理解,无间隙给出交流反应。

换言之,机器最接近人的交流方式,就是多模态输入与融合化的语义理解。而类似自然交互的技术难点,在于不同模态的视觉、语音、语音、传感信号,是构建在完全不同的数据编码之上的。整合与再学习始终都是AI领域的难点,尤其是应用领域的难点。

价值极大,难度极高,把多模态深度语义理解堆积成了AI领域的雪域高原。无数开发者都在翘首以盼先导者能够翻越这座大山。

在这次百度AI开发者大会上,百度大脑非常自信地将升级矛头对准了这个最神秘的AI沙漏。主打多模态深度语义理解技术的底层开发,可谓打开了通往无尽技术应用与难预测上线的AI大门。

技术乘法:多模态深度语义理解的应用流沙效应

多模态深度语义理解之所以重要,从应用的角度看,是因为它把视觉、语音、语义、传感,以及泛深度学习类交互整合到了一起,让技术间不再是并行的通道,而是打开了彼此融合的想象之门,并且在利用深度学习技术,强化了语义理解的精准度与容纳范畴,视线了语音语义的一体化融合。可以想见的是,多模态深度语义理解,将会在技术突破之后带来大量的眼神技术与子应用,从而改变我们对AI识别、语音控制、人机交互的边界认识。

或许从此以后,AI技术将不仅仅是做加法,更有可能产生技术细节之间的乘法效应。从百度大脑3.0公布的技术案例,我们已经可以看出类似乘法效应:

在AI开发者大会期间,对多模态深度语义理解技术最直接的感受,在于技术能力突破之后应用边界的想象力爆棚。

比如说百度大脑3.0带来的视觉语义化技术,可以让机器从看清到看懂视频的内容。比如在新零售场景中,摄像头可以通过视频语义化来直接理解顾客的行为动作,以及选取了哪些商品。这样就无需再有复杂的识别条码、刷脸等流程,顾客可以真正的拿起商品就走,产生毫无时间影响的购物体验。

另一个多模态深度语义理解的技术应用,是语音语义一体化带来的。在使用语音导航长Query时,我们经常要简单明了的说清楚导航目标,但假如我们的导航需求比较复杂,或者我们也不太清楚具体的地名,那就会很麻烦。导航中的AI识别只能进行文本唤醒,无法去理解使用者的想法。

在百度开发者大会现场,我们已经见识到在语音语义一体化技术加持后,百度地图的用户可以像绕口令一样说出大量内容,百度大脑会同步听清、听懂和理解相关含义,给出最佳导航路线。

类似的案例还有很多,从中我们可以发现,多模态深度语义理解让AI技术沙漏中的每一颗沙子,都可以排列组合出未知中的惊喜。

戳破最后隔膜:百度大脑3.0的3件礼物

当开发者想要从传统AI赛道,进入神秘的深层人机交互,需要的并不是高屋建瓴的设想,也不是多么科幻的技术示范。而是脚踏实地,真正建立可以按部就班展开学习、尝试与创造的多模态AI路径。而百度大脑的3.0升级,带来了多模态世界的3个礼物,可以说是带给开发者的核心保障:

1、告别算力问题的“昆仑”:在AI开发者大会上,百度大脑3.0首次将芯片纳入技术体系,推出了百度自主研发的中国第一款云端全功能AI芯片“昆仑”。据了解,昆仑的AI任务处理速度比此前我们常用的FPGA方案快30倍以上。高性能、高性价比,且具有易用性的云端AI芯片,可以与百度的整体AI技术体系结合,带给百度大脑的用户与开发者更多想象力。

2、跳跃的PaddlePaddle:在今年的开发者大会上,百度公布了PaddlePaddle 3.0,在与自主芯片结合,打造全栈解决方案和平台化建设之余,新的PaddlePaddle还开放了多种平台,为不同层级的开发者提供更简单的开发与训练。其中AutoDL可以自动地进行网络结构设计;AI Studio是一个非常实用的在线训练平台。灵活利用更加富有生态化意味的PaddlePaddle,开发者的工作或将得到翻天覆地的变化。

3、便捷获取AI的开发者权能:开发者另一个核心需求,是有足够多的技术应用支撑,来满足天马行空的想象力。假如只有高度抽象,雷同程度很高的技术开放,那么大家很难找到自己的开发机会,尤其是在多模态语义理解带来的全新契机面前。而百度大脑3.0全面开放了110多项AI能力,满足了开发者的技术拼图需求。李彦宏在开发者大会的开场白中说,百度的目标是Everyone Can AI。那么百度大脑的技术拼图和全栈架构,将是百度分享AI,建立开发者权能的必经之地。

百度大脑的升级,可以看做众多AI应用核心的突破。未来无数令人惊喜的AI应用,都将建立在百度大脑的跃升之上。当多模态底层技术不再是奢望,高度拟真的人机交互也就不再遥远。从百度大脑3.0开始,一个沙漏已经倒转,趋于理论最高值的AI未来,正在快速向这个世界挺进。

推荐阅读

史海拾趣

Atlanta Micro公司的发展小趣事

作为一家技术驱动的公司,Atlanta Micro始终重视研发实力的提升。公司不断加大研发投入,引进了一批高素质的研发人才,并建立了完善的研发体系。这些举措使得公司的研发能力得到了显著提升,不断推出具有市场竞争力的新产品,为公司的发展提供了源源不断的动力。

CML公司的发展小趣事

随着电子行业的快速发展,CML意识到只有不断创新才能在激烈的市场竞争中立于不败之地。于是,公司加大了对研发的投入,积极引进先进的技术和设备,不断提升产品的性能和质量。经过多年的努力,CML成功开发出了一系列具有自主知识产权的半导体产品,不仅在国内市场占据了领先地位,还成功打入国际市场,赢得了全球客户的信赖和好评。

Global Connector Technology公司的发展小趣事
继电器内部元件损坏或老化,影响其正常工作。
C&K Components公司的发展小趣事

进入新时代,C&K继续坚持创新驱动的发展战略,不断加大在研发和创新方面的投入。公司紧跟行业趋势,积极探索新技术、新工艺和新应用,推出了一系列具有创新性和领先性的开关产品。同时,C&K也注重与客户的沟通和合作,深入了解客户需求,提供个性化的解决方案和优质的服务。这些举措使C&K在激烈的市场竞争中始终保持领先地位,并赢得了更多客户的认可和支持。

这些故事展示了C&K Components公司在电子行业中的发展历程和取得的成就。从初创时期的坚持与探索,到60年代的转型与突破,再到90年代的行业领先地位确立,以及千禧年代的并购与融合和新时代的创新与发展,C&K始终保持着对技术的热爱和对市场的敏锐洞察,不断推动公司向前发展。

Benchmarq Microelectronics Inc公司的发展小趣事

在国内市场取得一定成绩后,Benchmarq Microelectronics Inc开始积极拓展国际市场。公司积极参加国际电子展会和交流活动,与国际同行建立合作关系,将产品打入国际市场。同时,公司还加强品牌建设,提升品牌知名度和美誉度。通过广告宣传、媒体报道等多种方式,公司成功塑造了专业、可靠的品牌形象,赢得了客户的信任和认可。

DIOO公司的发展小趣事

为了进一步拓展市场,DIOO公司决定实施国际化战略。在21世纪初,DIOO公司成功打入欧洲和北美市场,与当地知名电子产品制造商建立了合作关系。通过引进国际先进的生产技术和设计理念,DIOO公司的产品逐渐赢得了全球消费者的认可和喜爱。同时,DIOO公司还积极参加国际电子展会和论坛,与全球业界同仁交流学习,不断提升自身的竞争力和影响力。

问答坊 | AI 解惑

降低成本 ADI发布WiMAX终端RF收发器

降低成本 ADI发布WiMAX终端RF收发器         美国模拟器件公司(Analog Devices, Inc.,纽约证券交易所代码: ADI),全球领先的高性能信号处理解决方案供应商,10月10~12日在美国波士顿WiMAX世界峰会上展示了两款用于全 ...…

查看全部问答>

全国电子设计竞赛之电动跷跷板

本帖最后由 paulhyde 于 2014-9-15 09:19 编辑 电子爱好者请加QQ:273605686!经过这将近四天的奋战和赛前的准备和培训,确实学到了很多东西。  …

查看全部问答>

模拟设计与验证工具现状(1)

大约从20世纪80年代起,就有许多业内专家宣称模拟电路已走进死胡同,而数字应用将在电子世界中大放异彩,包括用在通信上的集成电路(integrated circuits,ICs)。在现实中,当然,现代化的通信系统同时需要将模拟及数字功能复杂地融合在一起。   ...…

查看全部问答>

奥特曼Zigbee读书日记(四)-- 设备“对话”专题(2)

原贴地址:http://www.feibit.com/bbs/viewthread.php?tid=86&extra=page%3D1   心理学专家告诉我们,一个贴子不能写得太长,否则会让读者有疲劳感。。。(背景音:哪个专家说的?--自己百度去,肯定不是奥特曼~~~)按照专家的指点,我们 ...…

查看全部问答>

proteul问题

出现下列问题,一直不知道是什么意思 SIMULATION LOG ============== Design:   E:\\C51实例\\MCS-51 examples_67 EEPROM\\EEPROM.DSN Doc. no.: Revision: Author:    Created:  06/08/06 Modified: 06/0 ...…

查看全部问答>

如何做一个基于51单片机的电脑遥控器?

小弟最近在忙毕业设计,想做一个基于51单片机的电脑遥控器,想法是这样的,做一个类似U盘的红外接收端,能实现遥控关机的功能就行了。这是最基本的,至于开机,貌似通过USB接口实现开机是有难度的。所以只想做一个能实现关机功能的就差不多了,我查 ...…

查看全部问答>

申请TI的片子来了,怎么用大家给个意见吧

  430的单片机之前只是耳闻,还没用过,我51,EMC单片机会用,还有ARM9,ARM11会用。   现在要用这430还需要哪些工具和软件?? [ 本帖最后由 青叶漂零 于 2011-11-16 11:35 编辑 ]…

查看全部问答>

南华大学黄智伟 备战2013 有关 “高频无线电类”赛题的一些问题

本帖最后由 paulhyde 于 2014-9-15 03:07 编辑 南华大学黄智伟 备战2013 有关 “高频无线电类”赛题的一些问题    …

查看全部问答>

Xilinx PCIe Endpoint Master DMA设计实现

基于PCI Express的数据采集卡 PCIe数据采集卡 PCI Express数据采集卡 本人在北京工作6年以上,从事FPGA外围接口设计,非常熟悉PCI Express协议,设计调试了多个基于PCI Express接口的数据采集卡. 本人非常熟悉Virtex-5/Virtex-6/7 Series FPGA PCI ...…

查看全部问答>

请教f28035 SCI

以下是我程序中的SCI相关代码,我用中断方式接收,查询方式发送,但是不知为什么我用串口调试助手发送字符后不能接收到CPU发送回来的数据? void sInitSCI(void) { EALLOW; GpioCtrlRegs.GPAPUD.bit.GPIO28 = 0; // Enable pullup on GPIO28 ...…

查看全部问答>