历史上的今天
返回首页

历史上的今天

今天是:2025年01月25日(星期六)

2018年01月25日 | 人工智能:读书“破万卷”,难答“小儿科”

2018-01-25 来源:科技最前线

(从左至右)崔磊、韦福如、周明、杨南。微软亚洲研究院自然语言计算研究组供图

阅读来自维基百科的536篇文章,回答10万个基于文章内容的问题,除了题量大一点,这场比赛挺像大学英语六级考试的阅读理解测试。

但你不可能听到考场里奋笔疾书的“唰唰”声,因为“参赛者”只是一段代码。输入文章和问题后,计算机的中央处理器(CPU)和图形处理器(GPU)开始高速计算,最后交出答卷,由出题者批阅。

对来自世界各国的研究者来说,这是一场没有尽头的竞赛——任何人可以在任意时间加入,排行榜实时更新;即使是第一名,不保持“学习”和“更新”,随时有可能被新加入者超越。它可能发生在你吃饭和睡觉的时候,而“对手”不过是“啪啪啪”地敲击了一串代码。

这场竞赛全称SQuAD(Stanford Question Answering Dataset)文本理解挑战赛,由斯坦福大学在2016年9月发起,是业内公认的机器阅读理解标准水平测试,也是这个领域的顶级赛事。

在2018年1月3日以前,人类始终保持着领先的优势——从来没有任何一个团队能够设计出一种答题正确率超过人类的算法。这一天,微软亚洲研究院自然语言计算组提交的新模型获得了82.650的精确匹配分数,超过了人类得分82.304。仅过了两天,阿里巴巴iDST-NLP团队也拿到了82.440的精确匹配分数。

微软亚洲研究院院长洪小文告诉中国青年报·中青在线记者:“这对微软和自然语言处理(NLP)研究领域来说,都是一个重要的里程碑。计算机文本理解能力首次超越人类,预示着该领域的研究将会有更大突破。”

在计算机看来,世间万物都是一串数字

微软亚洲研究院副院长、自然语言计算组负责人周明博士坐在计算机前,紧张地等待测试结果。经过1个多月对模型和算法的更新,他们提交了最新代码。

这支团队在SQuAD挑战赛初期,一度以稳定的成绩长期位居排行榜榜首,但周明知道,这场竞赛的排名瞬息万变。2017年最后两个月里,科大讯飞与哈工大联合实验室、腾讯DPDAC NLP团队先后超过了他们。

新选手参赛大约两三分钟后,系统就完成了约50篇数百词的文章阅读和约1万个问题的回答。即使母语是英语的成年人,这个时间也才勉强读完5篇文章。

“对人类来说,读完一篇文章就会在脑海中形成一定的印象,比如这篇文章讲的什么人,发生了什么故事。人们能够轻而易举地归纳出文章里的重点内容,但对计算机来说不是这样。”周明告诉中国青年报·中青在线记者。

在SQuAD测试中,计算机需要阅读一段材料,然后回答诸如人名、地理位置等问题。不同于类似测试,SQuAD测试的回答可能是一段短语,而非某个单词或单个内容。它可能遭遇同义词替换、句子结构变换等情况,甚至需要综合多个句子进行逻辑推理。

为了解决这个问题,研究组模拟人类做阅读理解过程的方式,他们将整个过程分成了四步。拿到测试题后,计算机首先会学习文本和问题,就像我们做阅读题时,首先会通读文章,然后审题,获得一个整体印象。

下一步,计算机会将问题和文章进行比对,找出相关段落,就像人类定位关键信息的环节。接下来,计算机会把初步结果放到上下文里比对,类似人会综合全文看待问题。最后,它会斟酌并选出最像答案的内容。

在这场竞赛中,不同团队设计的答题模式可能完全不同。周明介绍说,他们的设计中,最独特的就是第3步,是通过“注意力机制”达到的。这让关键信息像被画上了重点一样,成为计算机眼中高亮的部分。

“除了自然语言处理,注意力机制在图像识别领域也是关键的概念。”美国哥伦比亚大学计算机系硕士生何钦尧告诉中国青年报·中青在线记者。

人类视觉能够通过快速扫描整体图像后,找到需要重点关注的区域,并投入更多注意力,以获得更多细节,抑制其他无用信息。研究者也尝试让计算机学习并利用这种机制。不同于人类拥有动植物、山川河流的概念,所有单词和图像在计算机看来都是一串数字。它必须从数字背后微妙的联系中,洞悉它们的意义。

真理隐藏在数据和概率里

周明所在团队使用的计算机并不是凭空学会做题。参加SQuAD竞赛前,它就像“学霸”考前刷题一样,先看过了约500篇文章和与之对应的10万道题目、答案。

但周明表示,“目前基于深度学习的机器阅读理解模型都是黑盒的状态,很难直观地表示机器进行阅读理解的过程和结果。未来,可解释性的深度学习模型值得进一步探究。”

通过大量学习,计算机明白了什么数字意味着与文章内容相关,怎样的联系意味着这就是问题的答案。

“真理就隐藏在数据和概率里,我们这个领域的研究者大多都这么看。”何钦尧说。一个1岁人类孩童看过狗以后,就能识别各种体型、品种和不同拍摄角度的狗,形成概念,但计算机需要看过很多照片后,才能判断某个物体是不是狗。“我们不知道人类是怎么形成这个概念的,但对计算机来说,概念是靠积累数据、靠计算概率得来的。”

直到20世纪90年代之前,人们还在试图让计算机学会人类语言的规则,从而理解背后的含义。但语言在使用时往往不规范,机器无法处理偏离规则的内容。后来,人们开始让机器自己进行学习,获取语言知识。

发展到今天,自然语言处理领域的研究已经基本可以应付单个句子,理解句子成分。各大手机厂商也推出了自己的人工智能语音系统,可以识别并完成用户的指令,还能进行简单的交流和对话。

“长文本的理解一直是难点,这涉及句子之间的连贯性、上下文衔接和逻辑推理等更高难度的内容。”周明说。

当我们告诉计算机,“莱茵河上最大的城市是德国科隆,它是中欧和西欧区域的第二长河流,位于多瑙河之后”,并问它“什么河比莱茵河长”时,很多计算机会回答“科隆”。

如何理解代词“它”、理解“位于……之后”表示比较而非物理上的前后,成为这些“选手”很大的障碍。人类拥有“科隆是城市而非河流”这种常识,几乎不会在这个问题上犯错,但计算机无法理解这个概念。

SQuAD竞赛不是第一个计算机“超越”人类的领域

计算机很早就在计算、记忆的领域碾轧人类,后来又击败了人类最优秀的国际象棋、围棋棋手。

“其实,计算、下棋、机器翻译等只聚焦单一任务本身的人工智能都属于弱人工智能,”周明说,“不过弱人工智能并不弱,它可以具备超越人类的某些能力,有很大的价值,但是弱人工智能还无法真正理解它接收到的信息,而这就使得通往强人工智能的道路十分艰难。”

60多年前,曾有人尝试让计算机用6条规则和200个词汇做俄英翻译,这被认为是最早的人工智能尝试。那时的研究人员信心满满,宣称能在5年内完全解决一种语言到另一种语言的自动翻译问题。

这个目标至今没有完成,人工智能也因为研究进展缓慢经历过两次低潮。一直到近10年,计算机性能的大幅度提升和机器学习理论的兴起让人工智能再次热了起来。人们发现,计算机能够写诗词、与人对话,它变得越来越像人。

据统计,21世纪以来新创办的人工智能企业中,有近三分之二是在5年内创办的。最近3年,人工智能领域的就业岗位数量飙升近8倍。在亚洲,过去17年内投向人工智能领域的51亿美元中,有95%是在过去5年内投入的。

翻看SQuAD竞赛排行榜,前3名都是来自中国的团队。“这在过去是不敢想象的。”周明说。放在20年前,中国甚至还没有在这个领域的顶级会议上发表过文章。而现在,中国发表的文章数已经稳居世界第二,2017年还有5篇文章入选该会议的22篇杰出论文。

在SQuAD竞赛中,计算机得分比人类高0.346分,可以理解为同样做1万道题时,计算机多做对35道。“这远不代表计算机超越了人类的阅读理解水平。”周明告诉中国青年报·中青在线记者。也有人质疑,这里代表“人类”的,不过是众包平台上一小时挣9美元、受教育水平参差不齐的人。

一个公认的人工智能的标准是能够通过“图灵测试”——如果一台机器能够与人进行交流,并且被人误以为是人,那它就具有智能。

“‘能理解、会思考’,这其中,理解自然语言是最核心的问题。”周明说。目前,计算机还是很难在日常交流中理解双关和讽刺。在中文语境下,计算机还需要面对如何将一个句子拆分为数个词汇的问题。很多对人类而言无需学习的事情,例如保持平衡、用手拿起一个杯子,对机器而言也是无比困难的事情。

机器没有经过几亿年的演化,也没有人类大脑里由神经元数百万次电脉冲转化成的触觉、听觉或是视觉。在人类程序员的驯导下,它把一切转化为数字。

了解识别特性的工程师可以通过肉眼无法识别的微调,让计算机把小狗图片当成鸵鸟,或是将一片马赛克认成猎豹。有时,把中文翻译成英文再翻译回来,整句话都变得面目全非。

在人工智能威胁论不绝于耳的今天,周明几乎没有担心,他向中国青年报·中青在线记者举了SQuAD竞赛中的一个例子。

机器阅读了“按质量算,氧气是宇宙中第三多的元素,排在氢和氦之后”,面对“什么是第二多的元素”的问题,它的回答却是“氧”。不管是微软还是阿里巴巴团队设计的算法,都不能解决这个再简单不过的问题。

这不只是人工智能之间的竞赛,也是人类和自己的竞赛。

(来源:中国青年报)

推荐阅读

史海拾趣

Hirel Systems Ltd公司的发展小趣事

对于四通道红外遥控器接收器电路,网友可能提出的问题涉及多个方面,以下是一些可能的问题及回答:

一、技术原理类问题

  1. 问题:四通道红外遥控器接收器电路是如何工作的?
    回答:四通道红外遥控器接收器电路主要通过光电二极管接收遥控器发射的红外信号,经过放大、解码等处理,最终识别出不同的按键指令,并控制相应的设备执行操作。具体来说,当遥控器发射出特定频率的红外光信号时,光电二极管将光信号转换为电信号,经过放大电路放大后,送入解码器进行解码,解码器根据解码结果输出相应的控制信号,控制设备执行相应的操作。

  2. 问题:接收器电路中的关键元件有哪些?
    回答:接收器电路中的关键元件包括光电二极管(用于接收红外光信号)、放大器(用于放大微弱的电信号)、解码器(用于解码信号并输出控制信号)以及可能的滤波电路(用于滤除噪声干扰)等。这些元件共同协作,实现红外信号的接收和处理。

二、故障排查与维修类问题

  1. 问题:接收器无法接收到信号,可能的原因有哪些?
    回答:接收器无法接收到信号的可能原因包括:

    • 光电二极管损坏或老化,导致无法有效接收红外光信号。
    • 接收器电路中的连接线松动或接触不良,导致信号传输中断。
    • 放大器或解码器故障,无法对接收到的信号进行正常放大或解码。
    • 接收器受到外界干扰(如光线、电磁干扰等),影响信号的接收和处理。

    针对以上问题,可以逐一检查光电二极管、连接线、放大器、解码器等元件的状态,并采取相应的维修或更换措施。同时,注意避免将接收器放置在易受干扰的环境中。

  2. 问题:如何排查和解决接收器响应延迟或误动作的问题?
    回答:排查和解决接收器响应延迟或误动作的问题可以从以下几个方面入手:

    • 检查遥控器发射的红外信号是否正常,包括信号的频率、强度等是否符合接收器的要求。
    • 检查接收器电路中的滤波电路是否设置得当,以避免噪声干扰导致误动作。
    • 检查解码器的解码逻辑是否正确,以确保能够准确识别出遥控器发射的指令。
    • 如果以上均正常,可以考虑检查接收器的电源系统是否稳定,以及是否有其他电路元件故障导致的影响。

    针对具体问题,可以采取相应的调整或维修措施来解决。

三、应用与拓展类问题

  1. 问题:四通道红外遥控器接收器电路可以应用于哪些场景?
    回答:四通道红外遥控器接收器电路可以广泛应用于各种需要遥控控制的设备中,如智能家居系统(如电视、空调、灯光等的遥控控制)、工业自动化控制(如电机、阀门等的远程控制)、安防监控系统(如摄像头、报警器的遥控操作)等。通过扩展通道数量和增加控制逻辑,还可以实现更复杂的控制功能。

  2. 问题:如何对四通道红外遥控器接收器电路进行升级或改造?
    回答:对四通道红外遥控器接收器电路进行升级或改造时,可以考虑以下几个方面:

    • 升级光电二极管或放大器等关键元件的性能,以提高接收灵敏度和信号处理能力。
    • 增加滤波电路或改进解码算法,以减少噪声干扰和提高解码准确性。
    • 扩展通道数量或增加控制逻辑,以实现更复杂的控制功能。
    • 引入无线通信模块(如Wi-Fi、蓝牙等),将红外遥控与无线控制相结合,提高控制的灵活性和便捷性。

    在进行升级或改造时,需要根据具体的应用需求和技术条件进行选择和设计。

COMPUTAR公司的发展小趣事

随着技术的不断进步和市场需求的扩大,CBC株式会社开始寻求更广阔的发展空间。1960年,CBC香港公司成立,这标志着CBC的镜头产品开始走向国际市场。香港作为当时亚洲的金融中心和贸易枢纽,为CBC提供了宝贵的国际资源和市场机遇。通过香港公司的努力,CBC的镜头产品逐渐在国际市场上获得认可。

Elytone Electronics Co Ltd公司的发展小趣事

Elytone Electronics Co Ltd成立于XXXX年,最初是一家仅有几名员工的小型电子产品加工厂。公司创始人凭借对电子技术的热爱和对市场敏锐的洞察力,带领团队开始了艰苦的创业之路。在资源有限的情况下,他们不断研发新产品,优化生产工艺,逐步在行业内建立起了一定的知名度。

Beta Dyne Inc公司的发展小趣事

随着国内市场的饱和,Beta Dyne开始将目光投向海外市场。公司制定了一套完整的国际化战略,包括在海外设立研发中心、建立销售渠道以及与当地企业建立合作关系等。通过不断的努力,Beta Dyne的产品逐渐打入国际市场,公司的知名度和影响力也得到了显著提升。

Caliber公司的发展小趣事

在电子行业中,品质是企业生存和发展的关键。Caliber公司深知这一点,从原材料采购到生产制造的每一个环节,都严格把控品质。公司建立了完善的质量管理体系,通过不断的技术改进和工艺优化,确保每一款产品的品质都达到行业最高标准。正是这种对品质的执着追求,让Caliber的产品在市场上获得了良好的口碑,也为公司的长期发展奠定了坚实的基础。

Equinox公司的发展小趣事

2020年,新冠疫情的爆发给全球健身行业带来了前所未有的挑战。许多健身房因为疫情而被迫关闭,Equinox也不例外。然而,Equinox并没有放弃,而是迅速调整策略,通过线上课程、虚拟健身等方式保持与客户的联系。同时,公司还加强了内部优化和成本控制,以应对疫情带来的经济压力。

问答坊 | AI 解惑

请问中国有没有专门的linux廉价PC卖啊?

看到国外很多都说有linux专用的廉价PC/Laptop,不知道中国有没有卖的呢?…

查看全部问答>

想学习怎样修理音响吗?----自做功放板

2008年03月12日 星期三 15:23 80%的低音炮里面用的是这个IC!!!    TDA2030功放板由多年经验工程师设计,布线达到最优化,各项性能指标均达到理想设计效果。本板使用方便简单,接上音箱、CD、VCD、DVD、MP3、电脑和电源即可工作。 ...…

查看全部问答>

实时操作系统VxWorks

一 VxWorks组成部分     VxWorks 操作系统包括了进程管理、存储管理、设备管理、文件系统管理、网络协议及系统应用等 几个部分。VxWorks只占用了很小的存储空间,并可高度裁减,保证了系统能以较高的效率运行。 VxWorks由以下几个主 ...…

查看全部问答>

屏闪有水波纹问题

买了个2440的开发板.自带了块NEC的屏幕.结果屏datasheet没有调屏资料.打电话问技术支持.说这款NEC的屏幕本身有问题.调那几个参数没什么作用?请问哪位调过T35C-NEC2432的屏.给点指导!谢谢了…

查看全部问答>

Window Mobile 手机驱动的问题

大家好,我目前有个windows mobile项目,需要开发手机芯片串口的驱动,我需要得到手机芯片的什么描述文档,硬件接口文档吗?或者某一层的什么文档?希望达人解答,谢谢…

查看全部问答>

iar 内嵌汇编问题

由gcc的内嵌汇编程序个跟iar内嵌汇编语言差别好大啊,怎么修改才能从gcc的语法到iar的语法啊,iar是for msp430的 在 gcc 中的 __asm volatile (\"eint\");再 iar中编译不通,貌似不能直接asm与volatile搭配,该如何改啊? 还有,gcc中的语法__as ...…

查看全部问答>

抢答:51里怎样用pwm产生正弦信号?

51里怎样用pwm产生正弦信号呢?…

查看全部问答>

关于 volatile

一个变量声明成volatile和不声明有什么差别吗? 另外: 在ADS1.2下面: 做 if( (vari & const) == const)判断的时候,明明条件都已经成立了,但就是不执行后面的语句,为什么! 各位大侠来讲讲!…

查看全部问答>

南华大学黄智伟系列- 注意设计总结报告有几十分,不能丢啊!!!

本帖最后由 paulhyde 于 2014-9-15 03:29 编辑 南华大学黄智伟系列- 注意设计总结报告有几十分,不能丢啊!!! 一、电子设计竞赛设计总结报告评分标准和组成 1.设计总结报告的评分标准 全国大学生电子设计竞赛作品由基本制作部分、发挥制作部 ...…

查看全部问答>

双通道 H 桥电机驱动器

DRV8833 为玩具、打印机及其他机电一体化应用提供了一款双通道桥式电机驱动器解决方案。 该器件具有两个H 桥驱动器,并能够驱动两个直流(DC) 电刷电机、一个双极性步进电机、螺线 管或其他电感性负载。 每个H 桥的输出驱动器模块由N 沟道功率MOS ...…

查看全部问答>