历史上的今天
返回首页

历史上的今天

今天是:2025年04月16日(星期三)

正在发生

2019年04月16日 | 机器智能之路怎么走?从智能立体视觉开始

2019-04-16 来源:算力智库

3月底结束的机器视觉展上,一众国内厂家在设备、镜头、识别等层面互相竞技,有一家公司的气质却有点与众不同。伟景智能另辟蹊径,不走平面识别,通过立体视觉实现了更高效的机器学习能力。从二维走向三维,能否实现“降维打击”呢?算力智库专访伟景智能创始人董霄剑,解码一家创立两年却能独树一帜的科创企业。

最近Netflix的动画短篇合集《爱,死亡和机器人》以豆瓣9.4的高分刷爆社交网络,该剧以优质的画面和故事探讨了人性、社会、未来、家园和毁灭等概念。其中,《齐马的蓝》以一个机器人艺术家从万众瞩目到回归本源的故事成为短篇集中最意味深长的一篇。

人工智能机器人齐马

《齐马的蓝》讲述了一台泳池清洁机器人齐马被一代代科学家赋予越来越多的感知能力和智能,并成为一位画家。齐马可以深入熔岩、海底、宇宙,去感知人类所达不到的区域,并创作出独一无二的瑰丽画作。它的作品最独特的地方,在于其画作中间会有一块方形的蓝色,被人们誉为齐马蓝。

而在其创作生涯的最高峰,齐马选择了在众人面前抛弃自己所有的智能,回归最原始的状态,回到一台初级泳池清洁机器人。人们才知道原来齐马作品中那一抹齐马蓝就是他最初的创作者泳池中的瓷砖颜色。

齐马的蓝

抛开故事中蕴含的禅意和轮回的探讨,其涉及的机器感知层面,对从业者来说,也有一定借鉴意义。

“现在很多的视觉学习采用的基于大量平面图像进行训练,不仅图像的需求量大,而且所需的标注工作量也很大。在一定的意义上接近于‘Deep Training’。在很多在训练集中未出现的物体角度、存在场景、动态组合时会出现问题。”伟景智能的创始人董霄剑对算力智库表示。

董霄剑博士曾经是国内通讯行业领军企业展讯通信首席科学家,2016年创立了机器视觉公司伟景智能,只用了两年时间,完成了产品开发到应用。算力智库在3月底的上海机器视觉展上,和董霄剑聊了聊机器视觉的现状和未来。

展会上,镜头、红外线、摄像设备一应俱全,一应国内厂家比画质比识别比速度,甚至还有不少已经做出了可以搬运货物的机器人、自动识别瑕疵的生产线等产品。而伟景智能的气质却有点不同。

“伟景智能最大的不同在于我们强调的是首先发展智能立体视觉,然后基于此发展真正的机器智能。我们的每个落地应用不是仅仅针对其具体的需求而单纯研究这个应用技术,而是将这个应用的需求作为我们‘智能眼’的一部分功能而拓展。”董霄剑表示。

伟景智能创始人董霄剑

机器识别不是“放大镜”

董霄剑认为,机器视觉领域,大家普遍运用的是平面视觉,对每一个物体的识别率需要依靠大量的机器学习,费时费力,而运用立体视觉,可以大大减少机器的识别时间,增加识别率,帮助机器人建立自己的立体认知,这对机器智能识别来说,意义重大。

生产线上的瑕疵检测被很多厂家作为经典案例,宣传自己的精度、识别率、识别速度等。这只是机器识别最简单的应用案例,在面对更加复杂的场景尤其是自动驾驶这样需要机器识别并作出判断的时候,简单的平面识别不再适用。

董霄剑提出了一个很有意义的观点,即我们要做的是从机器的角度去看,而不是让机器帮你看。简单解释,即让机器自行识别,作出判断,给出反馈,而非简单为人类实现更细致的检测或观察。“那只能被成为‘放大镜’,而不是真正的机器眼。”董霄剑说。

伟景智能有个很有趣的应用案例,立体视觉引导自动化挤牛奶系统。通过对奶牛三维空间定位及姿态角度检测,将数据传输给机械装置,实现自动挤奶。这种功能的实现需要高精度的立体定位数据为机械臂提供操作指引,这对平面识别来说,几乎是不可能完成的任务,但是通过立体视觉,不仅能高效完成,机器对奶牛的识别学习也非常高效。据介绍,伟景智能的产品通过立体视觉,只需数小时就可以对某一物体进行识别。

“这个世界是三维的,从三维去认知,才是最快的方式。为什么要把三维的空间压缩到二位世界再去费工费力地认知呢?这就类似于你很少发现自然界中有少于一个眼睛的生物体,甚至我们幻想的外星球的人也是‘多目的’”。

伟景智能的自动化挤牛奶系统

发展“Natural Learning?”董霄剑曾经在某论坛上表示:未来的智能是机器真正自主产生智能,而不是培养智能。

伟景智能的理想是机器智能,做机器智能,首先必须让机器看见世界,然后让他去思考,只有立体视觉才能通向自主智能和机器智能。

对于这段话,董霄剑解释道,对于机器学习来说,永远都存在corner case(边角案例),而corner case是无穷尽的。以自动驾驶为例,路上会出现的情况各种各样,即便是通过大数据深度学习,仍然会有新的状况出现,只要无法穷尽所有的状况,就存在很大的风险。

因此,伟景智能要发展的是我们称之为“Natural Learning”,就是基于自然感知的智能化,包括视觉、听觉、触觉等综合感知层面的感知智能化,通过记忆、联想、语义、迁移等逻辑发展手段来发展机器认知智能。目前我们的工作首先重点在于发展具有这些特点的“智能立体感知”理论和技术。

从立体视觉的角度来说,自动驾驶要做的是识别出某个物体,然后判断,不能撞上去。而非通过海量的数据告诉机器:人不能撞、动物不能撞、墙不能撞……甚至要细化到某个物体的不同形状和各种实际使用时的路况。

深度学习方法的使用在很多实际领域取得了很好的效果。例如人脸识别、图像识别、医学影像等。但这不是机器学习的全部,我们不能神话这个方法。理论需要探索和突破,尤其是对于方兴未艾的人工智能来讲。条条道路通罗马,但一定要走在通往罗马的道路上。简单的拿来主义不具有长期的延续性。从这个角度讲,要实现智能视觉的道路还很长。

机器智能要发展,还得靠视觉

董霄剑将伟景智能的产品比作机器智能的眼睛,如果机器智能要发展,第一步是要发展智能视觉,而现阶段还只是智能视觉的起步阶段。

客观来说,5G时代来临之后会极大推动科技行业的发展。5G主要解决了两个问题,首先是数据的超高速传输,让所有大数据能高速汇集到某端点。第二点是极大缩短时延响应,提高响应速度。5G对机器智能会有极大的推动作用,例如基于场景的快速训练和认知如自动驾驶。会拓展数据量很大的立体视觉图像的传输及智能化综合应用,因此,5G技术对智能立体视觉的发展有直接的推动作用。

立体视觉实现机器识别不同形状并放置在指定区域

而要通过智能视觉实现的机器的智能程度,董霄剑以桌面上三台手机举例,我告诉机器人,把我的手机拿过来。“这里涉及到了机器智能两个层面的认知,首先是视觉层面的快速认知,机器人能通过立体视觉迅速识别出桌上的手机,同时,在三台手机中,认出桌上哪一台是我的手机。另一个层面是语音识别,能够让机器人将语言词汇和物体认知结合在一起,并实现操作,这才是机器智能和智能视觉要实现的目标之一。”

“智能视觉是从感知层面上升到认知层面,再回归到感知层面,让机器人不仅看到世界,还能看懂世界。”董霄剑的总结和《齐马的蓝》中机器人齐马通过感知所描绘出绚烂画作不谋而合。

而动画中的齐马甚至更进一步,通过感知勘破了世间万物,最终选择了回归本源,回归最真实的自己。

作者:生煎

编辑:高斯

文章所载观点仅代表作者本人

且不构成投资建议

敬请注意投资风险

推荐阅读

史海拾趣

GE Oil & Gas Digital Solutions公司的发展小趣事
在电子爱好者进行DIY制作时,用于快速测试电路中的电阻元件。
飞翼科技(FEIYI)公司的发展小趣事
检查电容和电阻元件是否有损坏或老化现象,检查电路布局是否合理以避免电磁干扰。
FTDI公司的发展小趣事
在电路制作完成后,使用已知阻值的标准电阻对电路进行校准,确保测量结果与标准值一致。
E-Z-HOOK公司的发展小趣事

自E-Z-HOOK公司成立以来,其产品线一直在不断扩大。到了1970年代,随着电子行业的快速发展,对测试工具的需求也日益增加。公司的新主人继承了阿尔伯特·史密斯的愿景,并决定进一步扩展产品线。他们引入了一系列新的测试钩型号,以适应不同尺寸和形状的测试点。此外,公司还开始生产其他与测试相关的零部件和组件,以满足客户日益增长的需求。

Grand Halo Technology Co Ltd公司的发展小趣事

在1956年的一个晴朗午后,E-Z-HOOK的创始人阿尔伯特·史密斯(化名)在实验室里遇到了一个棘手的问题。他正在测试一个复杂的电子系统,但发现现有的测试工具无法满足他的需求。于是,他动手设计并制造出了第一个E-Z-HOOK测试钩,这个简单但实用的工具极大地方便了他的工作。史密斯看到了这个产品的巨大潜力,于是决定成立一家公司来专门生产这种测试钩。这就是E-Z-HOOK公司的起源。

方向电子公司的发展小趣事

在1956年的一个晴朗午后,E-Z-HOOK的创始人阿尔伯特·史密斯(化名)在实验室里遇到了一个棘手的问题。他正在测试一个复杂的电子系统,但发现现有的测试工具无法满足他的需求。于是,他动手设计并制造出了第一个E-Z-HOOK测试钩,这个简单但实用的工具极大地方便了他的工作。史密斯看到了这个产品的巨大潜力,于是决定成立一家公司来专门生产这种测试钩。这就是E-Z-HOOK公司的起源。

问答坊 | AI 解惑

主要的电源种类

    随着科学技术的发展,对电源技术的要求越来越高,规格品种越来越多,技术难度越来越大,涉及的学术领域也越来越广。特种电源(或称工业电源)应用的对象具有多样性、新颖性和复杂性,要求特种电源设备不仅要保证内在性能的完美,而且要 ...…

查看全部问答>

锁屏

在window mobile 中,锁屏是否有相应的API,我用了SHDeviceLockAndPrompt在程序中没有反应,是不是还有别的要求如果要用这个函数?有谁了解的,谢谢大家了。…

查看全部问答>

如何重载CCombobox

如何重载CCombobox,为何下拉框出来后,DrawItem不响应呢…

查看全部问答>

MC55需要多大的电源供电啊~~

我读手册是3.3~4.8V 但我不知道用多大的合适 电源这块到底怎么设计啊 希望硬件好的大侠帮帮忙吧~!跪求答案!!…

查看全部问答>

ucos移植过程中的用户堆栈地址问题

我建立一个任务MyTask,代码如下: void MyTask(void *data) {     data = data;     psem = OSSemCreate(0); // 创建一个信号量     while(1) {      transData(0x55);   ...…

查看全部问答>

请教各位高手一个关于ip分配的问题?

请问哪位高手可以帮我解释一下,一台无线设备连到一个新的网络中,是怎样获得新的ip的? 如果自己写个无线驱动,怎样来实现获取ip的? …

查看全部问答>

嵌入式讨论QQ群:24228771 特别要求各位达人来作客 20空位

嵌入式讨论QQ群:24228771  特别要求各位达人来作客  20空位…

查看全部问答>

f149比较器全攻4

//比较器中断 #include void main() {     //关闭看门狗   WDTCTL=WDTPW+WDTHOLD;   CACTL1=CAON+CAIE;   CACTL2=P2CA0+P2CA1+CAF;      P4DIR|=BIT0;//P4.0作为输出 &nbs ...…

查看全部问答>

11月份编程语言排行 - Objective-C 持续强势

还有两个月 TIOBE 就要宣布 2012 年度编程语言了。Objective-C 这个月第一次跨越了 10% 的门槛,并且持续走强。其他的移动编程语言例如 C,C++,Java的增长并不能和 Objective-C 相提并论。而另外一个竞争对手 C# 却有明显的下降趋势,原因不明。看 ...…

查看全部问答>

[转]双绞线对的视频传输

0 Video Transmission Over Twisted Pair Wire …

查看全部问答>