历史上的今天
返回首页

历史上的今天

今天是:2025年03月20日(星期四)

正在发生

2019年03月20日 | 强化学习之父:AI研究70年教训深刻 未来探索要靠智能体自己

2019-03-20 来源:亿欧网

近日,强化学习之父、加拿大计算机科学家Richard S. Sutton在其个人网站上发文,指出了过去70年来AI研究方面的苦涩教训:我们过于依靠人类知识了。

Sutton认为,过去70年来,AI研究走过的最大弯路,就是过于重视人类既有经验和知识,研究人员在训练AI模型时,往往想将人类知识灌输给智能体,而不是让智能体自己去探索。这实际上只是个记录的过程,并未实现真正的学习。

事实证明,这种基于人类知识的所谓”以人为本“的方法,并未收到很好的效果,尤其是在可用计算力迅猛增长的大背景下,在国际象棋、围棋、计算机视觉等热门领域,智能体本身已经可以自己完成”规模化搜索和学习“,取得的效果要远好于传统方法。

Sutton由此认为,过去的教训必须总结,未来的研究中,应该让AI智能体能够像我们一样自己去发现,而不是将我们发现的东西记下来,因为后者只会让我们更难以了解发现的过程究竟是怎样的。

以下为文章原文:

在过去70年中,人工智能研究中得出的一个最大教训是,通用化的方法最终往往是最有效的,而且能够大幅提升性能。造成这个结果的最终原因是摩尔定律,或者说,是摩尔定律总结出的计算力随时间的变化趋势。

大多数人工智能研究都有个假设前提,即智能体的可用计算力是一个不变的常量,也就是说,提升性能的方法可能就只有利用人类自己的知识了。但是,如果项目周期比一般情况较长时,一定会有丰富的计算力可以投入使用。从短期来看,研究人员可以利用自己掌握的相关领域的人类知识来换取性能提升,但从长远来看,唯一重要的还是计算力。

我们完全没有必要让这两者相互对立起来,但实际上,它们往往就是相互对立的。项目时间有限,把时间花在计算力上,就不能花在人类知识的利用上。研究人员在心理上往往会偏向某一种方式。人类知识方法往往使解决问题的方法变得复杂化,与利用利用计算力得出的通用化方法相比,适应性上不如前者。

不少AI研究人员用了很长时间才明白这个教训,所以我觉得这个问题值得单独拿出来讲一讲。

过去70年AI研究的深刻教训:靠人类知识,远不如靠智能体自己

1997年,IBM的计算机“深蓝”击败了世界冠军卡斯帕罗夫,“深蓝”的开发就是基于大规模的深度搜索。而当时,大多数计算机象棋研究人员采用的方法,都是利用人类对国际象棋特殊结构的理解。

当一个简单的、基于搜索的方法在专门的软硬件上显示出强大性能时,彼时基于人类知识的国际象棋研究人员沮丧地表示,这次“野蛮搜索“可能压倒了人类的经验和知识,取得了胜利,但这无论如何不是人们下棋的方式。这些研究人员一直希望基于“人类知识”的方法能够获胜,因为没有实现这一点,他们的失望溢于言表。

计算机围棋中也出现了类似的研究模式,不过比国际象棋迟来了20年。研究人员希望通过人类知识或棋局的独有特征,来避开大规模搜索,但所有这些努力都证明是用错了地方,而且,在搜索大规模应用之后,这种错误显得更加明显了。

同样重要的是,通过智能体的自我学习来学习价值功能。像大规模搜索一样,AI需要通过自对弈和通用学习来提升性能,实现大规模的计算应用。

搜索和学习是在AI研究中利用计算力的两种最重要的技术。在计算机围棋中,研究人员最初的方向也是利用人类知识,搜索用的比较少,很长时间以后,才通过搜索和学习获得了更大的成功。

在语音识别方面,早期的研究利用了一系列基于人类知识的专门方法:词汇、音素、人类声道知识等。而比较新的方法更偏向统计性,并且计算量更大,基于隐马尔可夫模型(HMM)。与国际象棋和围棋一样,在语音识别领域,同样是统计方法战胜了基于人类知识的方法。这导致所有NLP研究在近几十年内发生了重大变化,统计和计算在这一领域占据了主导地位。最近的语音识别领域中,深度学习的兴起是这个趋势的最新体现。

深度学习方法对人类知识的依赖更少,应用了更多的计算,以及对大量训练集的学习,生成性能更高语音识别系统。和棋类对弈一样,研究人员一开始总是想让系统按照人类的思维的方式运作,试图将人类知识放输入系统,但事实证明,最终是适得其反,而且极大地浪费了研究人员的时间。随着计算力的迅速增长,研究人员也找到了能够高效利用计算力的方式。

在计算机视觉领域也是如此,早期研究将“视觉”设想为搜索的边缘或广义圆柱体。但今天这一切都被抛弃了。现代深度学习神经网络仅使用卷积和某些不变性的概念,并且表现得更好。

这是一个很大的教训。我们仍然没有完全理解这个领域,因为我们会继续犯下同样的错误。要看到这一点,并从中总结教训,即建立我们认为理解自身思考方式的体系,从长远来看解决不了问题,AI研究从重“人类知识”到重“计算和搜索”的演进过程,已经证明了这一点。

回顾过去,我们可以总结出下面几点认识:

1)AI研究人员经常想要将知识传给智能体

2)这个方式在短期内总是会有效,研究人员本人可以获得满意结果。

3)从长远来看,这种方式对未来的性能提升没有帮助,甚至有阻碍作用。

4)AI的突破性进展最终要通过基于搜索和学习进行规模化计算的方法来实现。

对于AI研究而言,最终的成功可能反而会充满了苦涩,很多人往往理解不了,因为它战胜的是“以人为本”的老方法。

要让智能体自己去搜索和发现,而不是靠人类

通用方法具备强大功能,即使可用计算力已经非常强大,我们仍然可以通过增加计算力来扩展的方法。而基于计算力的搜索和学习可以按照这一方向任意扩展下去。

第二个教训是,人类思维的实际内容的复杂程度是无可比拟的,我们不应该在尝试寻找关于思维内容的简单方法,如对空间、对象,多智能体或对称性的思维内容的简单方法。

所有这些在本质上都是复杂的外部世界的一部分,它们的复杂性是无穷无尽的,我们应该集中精力构建可以找到并捕获这种任意复杂性的”元方法“。构建这种“元方法”的关键在于,智能体能够找到很好的近似结果,但是具体执行搜索、进行发现的应该是智能体自己,而不是我们。我们希望AI智能体能够像我们一样自己去发现,而不是将我们发现的东西记下来,因为后者只会让我们更难以了解发现的过程究竟是怎样的。

作者简介:

Richard S Sutton是加拿大计算机科学家,阿尔伯塔大学计算机科学教授和iCORE主席。 他被认为是现代计算强化学习的创始人之一,在时间差异学习和政策梯度方法方面,对该领域做出了重要贡献。

推荐阅读

史海拾趣

Elite Enterprises (H K) Co Ltd公司的发展小趣事

随着全球环保意识的提高,Elite Enterprises积极响应绿色环保的号召,将环保理念贯穿于产品的研发、生产和销售全过程。公司采用环保材料和节能技术生产LED产品,并积极参与各种环保公益活动。这些努力不仅提高了公司的社会形象,也为公司的可持续发展奠定了坚实基础。

请注意,以上故事为概述性质,并未达到每个故事500字的详细程度。如需更详细的描述,请查阅公司官方资料或相关新闻报道。

台湾第一电阻(Firstohm)公司的发展小趣事
电冰箱不制冷可能由多种原因引起,包括电源问题、温度设置不当、制冷系统故障等。首先,检查电源插头是否牢固插入插座,并确保插座有电。其次,检查温度设置是否正确,冷藏室温度一般应设置在2-4摄氏度,冷冻室温度应设置在-18摄氏度左右。如果以上均正常,可能是制冷系统出现故障,如压缩机故障、制冷剂泄漏等,需要请专业人员进行检查和维修。
Chino-Excel公司的发展小趣事

在发展过程中,Chino-Excel公司注重品牌建设和市场推广。公司投入大量资金进行品牌宣传和推广活动,提升品牌知名度和美誉度。同时,公司积极参加国际电子展会和行业交流活动,与国内外客户建立广泛的联系和合作,为公司的快速发展奠定了坚实基础。

CITIZEN公司的发展小趣事

西铁城公司的历史可以追溯到1881年,由日本商人户田清创立。最初,公司名为“户田时计商店”,主要从事时计的维修和销售业务。然而,随着时间的推移,户田清意识到仅仅依靠维修和销售并不能满足市场的需求,于是公司开始致力于制造自己的钟表产品。这一转变不仅扩大了公司的业务范围,也为西铁城日后在电子行业中的崛起奠定了基础。

Advanced Power Solutions公司的发展小趣事

面对日益激烈的国际竞争,Advanced Power Solutions决定实施全球化战略。公司先后在多个国家和地区设立了研发中心和生产基地,以便更好地满足当地市场的需求。同时,公司还加强了与国际同行的交流与合作,共同推动电源管理技术的发展。这些举措使公司的竞争力得到了显著提升,也为公司的长远发展奠定了坚实基础。

FASTRAX公司的发展小趣事

1999年,FASTRAX在芬兰赫尔辛基成立,专注于为全球设备生产商和设计商提供高性能的GPS接收模块。公司凭借对GNSS技术的深入理解,迅速在市场中崭露头角。其首创的带天线GPS接收模块以其高效、稳定的性能,赢得了客户的广泛赞誉。

问答坊 | AI 解惑

在没有单片机的情况下,只有仿真调试器,能否用Keil uVision3通过仿真调试器进行仿真呢?

在没有单片机的情况下,只有仿真调试器,能否用Keil uVision3通过仿真调试器进行仿真呢?如果不能的话,在没有单片机的情况下怎样才能编程仿真呢?欢迎大家给予小弟点指点,谢谢了!…

查看全部问答>

在WinCE 上, 如果ARM CPU 已经内置了CPU 控制器, 在平台上实现USB 功能,需要哪些步骤?

在WinCE 上, 如果ARM CPU 已经内置了CPU 控制器, 在平台上实现USB 功能,需要哪些步骤? 如果CPU 原厂的BSP 已经支持了USB 功能, 我们还需要哪些步骤?…

查看全部问答>

wince 5.0 使用 imaging COM组件 画png图片 内存泄露

BOOL ImageFromIDResource(UINT nID, LPCTSTR sTR, IImage** pIImage) {         HRSRC hRsrc = ::FindResource (hInstRes,MAKEINTRESOURCE(nID),sTR); // type         if (!hRsrc)     &n ...…

查看全部问答>

STM32 1602液晶程序无显示!求高手!

程序如下,急需高手指点!为什么程序下载到1602上无任何显示? //LCD #define   LOW_RS()    GPIOD->BRR =GPIO_Pin_6#define   LOW_RW()    GPIOD->BRR =GPIO_Pin_5#define   L ...…

查看全部问答>

求助

[i=s] 本帖最后由 paulhyde 于 2014-9-15 08:55 编辑 [/i]请问如何准备电子大赛控制类  …

查看全部问答>

IAR软件怎么查看语句运行时间

想在IAR软件中查看从这句运行到制定一句的时间,请问如何做啊??谢谢各位大神了…

查看全部问答>

机房环境温湿度综合控制系统方案

JCJ560 智能综合环境监测系统 一、产品简介: JCJ560智能综合环境监测系统是九纯健科技给合数据通讯技术、微型电脑控制技术、手机短信技术、互联网技术、传感器测量技术、自动化监测软件开发技术等多学科先进技术 ...…

查看全部问答>

回调函数精炼总结

函数f在调用函数f1的时候,实际上调用的是f2, 这个f2我们称它为一个回调函数。因此,回调既非什么高深的语法,也不是什么高明的算法,只是一种有别于直接调用的一种调用方式。这么做的目的不过是为了整个程序的结构更加清晰明了、可读性更强!…

查看全部问答>

运算放大器是否可以用来做比较器吗?

运算放大器是否可以用来做比较器吗?…

查看全部问答>