历史上的今天
返回首页

历史上的今天

今天是:2025年02月26日(星期三)

正在发生

2018年02月26日 | 机器看书已甩你几条街?那只是“指标”上的胜利

2018-02-26 来源:硅谷网

2017年由李飞飞团队创建的机器视觉领域鼎鼎有名的ImageNet视觉识别挑战赛走向谢幕。回顾往昔,ImageNet在2012年引爆了深度卷积神经网络,并继而在3年后推动谷歌、微软、百度等公司在图像识别领域超过人类!在图像识别领域,ImageNet可谓功不可没。

而如今在另一个数据集上,或许也正上演同样的故事。在2018年伊始,阿里巴巴和微软亚洲研究院相继刷新了斯坦福大学发起的SQuAD(Stanford Question Answering Dataset)文本理解挑战赛成绩,机器阅读理解评分超过人类!这意味着机器阅读理解的能力已经开始在“指标”上超越人类,又是否能够引领自然语言处理(NLP)领域的下一场革命?

近日,百度自然语言处理团队也拿下了微软MS MARCO(Microsoft MAchine Reading COmprehension)机器阅读理解测试首名。

百度在微软MARCO中获第一名

“自然语言处理是人工智能桂冠上的明珠”便反应了NLP发展之艰巨。而这些公司们陆续在NLP比赛上取得胜利,是否意味着机器阅读理解真的能够超过人类?我们采访了近10位NLP领域的资深人士,他们中既有NLP类创业公司的CEO/技术高管(如康夫子张超、思必驰葛付江、猎户星空闵可锐),又有大公司的技术负责人(如搜狗刘明荣、科大讯飞王士进)等。

通过沟通我们认识到,机器在阅读理解的评分上超过人类,也许是NLP发展历程上的一次重大突破,意味着机器在“指标”上对人类的胜利,机器也确实可以在限定场景下有超过人类的表现。但这终究是一场“指标”上的胜利,想要做到能理解会思考,机器还有“万里长征路”要走。

公开数据集掀起算法竞赛

在谈NLP发展现状之前,我们先看一下斯坦福的SQuAD和微软MS MARCO两个机器阅读理解数据集。

SQuAD是斯坦福大学于2016年推出的阅读理解数据集,也是行业内公认的机器阅读理解标准水平测试,该数据集包含来自维基百科的536篇文章及共计十万多个问题。在阅读数据集内的文章后,机器需要回答若干与文章内容相关的问题,通过与标准答案对比来获取得分。这个数据集有两个评判标准:EM(Exact Match)代表完全匹配,即机器给出的答案和标准答案一样才算正确;F1代表模型的整体性能。

在EM值上,人类在该项得分为82.304,而阿里和微软在前不久的得分中稍高于人类得分,分别为82.440和82.650,这也是为何阿里和微软称机器阅读理解得分超过人类。目前整体排名第一的是科大讯飞与哈工大联合实验室,EM得分为82.482,F1得分89.281。

微软MARCO也应用在机器阅读理解领域,是由10万个问答和20万篇不重复的文档组成的数据集。相比SQuAD,其最大不同在于数据集中的问题来自微软自家必应搜索引擎,根据用户在必应中输入的真实问题模拟搜索引擎中的真实应用场景。可以看出微软希望借此数据集提升用户获取信息方面的能力。

百度称,MARCO的挑战难度更大,它需要测试者提交的模型具备理解复杂文档、回答复杂问题的能力,百度之所以选择该数据平台,是更致力通过技术应用解决搜索中的实际问题。

可以看出,在机器阅读理解比赛中,百度、阿里、科大讯飞、微软等公司取得较为优异的排名,也体现出我国在NLP方面的研究在全球也处于前列的位置。这些阅读理解的数据集也使训练大规模复杂算法成为可能,各大公司通过数据集优化算法,从而解决自然语言实际问题,进一步推动自然语言处理的发展。

一场限定边界场景的“指标性”胜利

针对阿里、微软、百度等在机器阅读理解方面的表现,我们采访的NLP领域资深人士均表示,机器阅读理解取得的成绩确实是一个突破性的进展,其可能是继机器翻译之后又一个取得重要进展的NLP领域;但机器阅读理解仍然是一种限定边界的任务,远远达不到真正的归纳和推理,因此对于人类的胜利更应该说是“指标”上的胜利。

搜狗搜索事业部NLP技术负责人刘明荣谈到,在斯坦福SQuAD比赛中,阿里和微软评分超过人类这一成绩确实是NLP领域一个重要的进步,表明在特定任务上机器已经取得了和人类相当的水平,在特定场景下已经做到了接近实用水平。

认同这一观点的还有思必驰NLP资深工程师葛付江,他指出一方面机器阅读理解属于篇章理解,需要从篇章中找到相关信息并回答问题,相对于词语和句子理解这是一项比较高级的NLP任务;另一方面机器阅读理解是一种边界限定的场景式机器理解,问题的前提条件和场景边界都比较清楚,所以机器阅读理解超过人类是以“设定文章集合、有限问题”为前提条件的。

相比前几年,阿里和微软在机器阅读理解中评分超过人类确实体现了NLP技术的快速进步和发展。但同时,葛付江也表示,机器阅读理解离真正的人类水平还有很长的路要走。

关于机器阅读理解超过人类的说法并不正确,猎户星空首席科学家闵可锐向智东西解释到,特定任务数据集可以说是对特定任务的一个代理(对世界的抽象),我们的测试是基于这个代理任务,所以代理本身的有效性很关键。比如语音识别中采用播音员在无噪声情况下的数据算法能够达到很高的准确率,但未必代表语音识别超过人类,因为这个代理任务过于简单。

同样的SQuAD的数据设计将文本限定在维基上,并且只有500多篇内容,这也相当于作了简化。灵隆科技首席科学家汤跃忠博士也指出这类比赛都是限定条件的,其评价指标也有一定的片面性。

而同样是阅读理解任务,智东西了解到百度也公布过一个不论在难度还是在规模上更大的DuReader数据集,目前最好的模型与人的准确率相比也有近20个点的差距。因此尽管通过神经网络端到端的架构机器阅读理解有突破性进展,但远谈不上超过人类。

康夫子创始人兼CEO张超补充到,这只说明基于端到端的深度学习框架可以在“阅读理解”任务上做出不错的成绩,本身还是深度学习在NLP应用领域的探索。但大多数问题仍没有到达需要“推理”的级别,对于机器阅读理解“能理解会思考”的终极目标来说,现在还是只万里长征的开始。

NLP发展现状:初落行业 限定场景大有可为

微软全球执行副总裁沈向洋曾说过,人工智能的突破在于自然语言理解,“懂语言者得天下”。自然语言处理也被称为“人工智能桂冠上的明珠”,足以体现该领域之难之重要。

而经过近年深度学习的发展,目前NLP开始落地行业,可谓“初出茅庐”,通过限定边界场景,已经开始进入家居、车载、金融、医疗、教育等众多领域,未来发展前景不可限量。

科大讯飞北京研究院院长、AI研究院副院长王士进谈到,随着深度学习技术的发展,NLP在人机问答、神经机器翻译、阅读理解、用户画像和精准推荐等领域取得了很大的技术突破,并且在金融、教育、法律、医疗等领域逐步广泛应用。

具体来看,搜狗刘明荣表示NLP经过几十年的发展,目前在词法、句法等浅层语言分析任务上已经达到相当高的实用水平。在一些具体的NLP任务上,比如语音方面的语音识别和合成,文本方面的文本分类、情感分析、文本摘要、机器翻译等,也基本达到了实用阶段。

而思必驰葛付江从知识图谱的维度谈到,伴随着知识图谱技术的发展,NLP在垂直场景上的产品化落地也在加快,诸如智能家居、车载、机器人、企业对话服务等场景。当今,NLP进步的动力在于真实的应用场景正在不断出现,与此同时也将带来更多的场景需求,创造更多数据,进而推动NLP的进一步发展。

而以机器阅读理解来说,机器能够超过人类的在于“指标”,但真正在通用领域超过人类,在较长时期内还是不现实的。

“以机器阅读理解任务来说,机器应该很快会从指标上超过人类的现有水平,但真正的阅读理解过程需要深层的推理和归纳,这恰恰是目前机器所欠缺的,还需要通过底层算法的突破才有可能实现机器在NLP领域的真正突破”,王士进谈到。

而人做阅读理解和机器做阅读理解是两个层面的事,康夫子CEO张超表示,对于机器来讲,阅读理解任务可抽象为“把文章和问题作为输出,来判断哪个答案最为可能”,这时题型或者重点一旦发生变化,整个机器的效果可能直线下降。而人的阅读理解则是读完后的融会贯通,真正做到理解、运用、推理甚至想象。

但刘明荣也指出,尽管通用领域机器还不能够超越人类,但在特定行业下,基于对特定行业资料的理解所产生的机器人,如客服机器人,至少可以达到和人类的理解水平相当,并且在整体效率上远远超过人类。

可以看出,目前NLP的商业化以及落地行业才刚刚开始,如果将NLP放到一条发展线上,目前还处于中初期,限定边界下才大有可为。由于其涉及到大量认知层面的理解,仍然是一个十分有挑战的问题,在知识表达、常识表达和知识推理上还有很长的路要走。

NLP发展的关键在于垂直领域快速落地

近年来随着智能音箱在全球市场的盛行,语音交互持续火热,机器翻译、机器同声传译等快速发展,对NLP的进步产生巨大需求。面对当下NLP发展现状,业内资深人士也从数据、底层算法、知识图谱、应用等维度给出进一步发展的办法。

思必驰葛付江认为,大规模的数据集或数据平台、积极开放的研究氛围对于NLP技术的发展至关重要。而垂直领域产品化落地将是推动NLP技术进步最重要的动力,它会带来更多的流动数据、研究投入和社会资源,推动NLP进一步的发展。

结合实际应用需求,搜狗刘明荣认为产学研相结合是推动NLP发展的一大动力。结合实际问题,建立大规模评测数据和规范的评测方法,让学术界和工业界共同参与,才能够更好的解决目前存在的难题。

猎户星空闵可锐表达了其对知识和语义表达的兴趣,通过近两年有较大发展的神经机器翻译技术来看,他认为这一定程度上证明了语义向量表达的可能性,猎户星空也在探索通过无标注数据或可大量获取的弱标注数据来进行精确的语义建模。

此外,康夫子CEO张超从自身医疗机器人的维度谈到,下一步推动NLP发展可能再知识图谱层面,通过知识图谱构建机器对任务的认知能力,再加以语义、交互等处理工具,通过应用才能更好推动一个行业的发展。

而强调通过知识图谱来推动NLP发展的不止张超,还有阿里AI Labs北京研发中心负责人聂再清博士。

他希望建立一个知识图谱的生态平台,让大量的开发人员在上面去建立知识图谱,使用积累的知识图谱,不断扩大知识图谱在常识性和专业性方面的积累,即共建知识图谱,产生1+1>2的效果。

结语:引爆人工智能下一场革命?

不得不说,机器阅读理解在“指标”上已超过人类,未来将会在“指标”上全面超过人类,机器阅读理解又能否向图像识别一样,引领人工智能的下一场革命?随着NLP方面的突破,智能助手、智能客服、机器翻译等都将大幅提升,惠及金融、教育、家居、车载等众多行业!

但归根结底,机器不能像人一样做到真正的理解、融会贯通、推理,其只是一场限定边界场景的“指标性”胜利。机器想要做到能理解会思考,现在还只是万里长征的开始。

而作为人工智能桂冠上的明珠,NLP技术的重要性和挑战性不言而喻。在当下将NLP在垂直领域快速产品化落地、知识图谱的构建以及底层算法的突破都将进一步推动认知智能的发展。

推荐阅读

史海拾趣

E-T-A Circuit Breakers公司的发展小趣事

E-T-A公司自1948年由Jakob Ellenberger和Harald A. Poensgen创立以来,一直由该家族掌管。尽管公司已经发展成为一个国际性的企业,但家族第二代和第三代领导人仍然保持着对公司的掌控和管理。他们秉承了家族的创业精神和价值观,坚持以客户为中心,以技术创新为驱动,不断推动公司向前发展。在家族传承的推动下,E-T-A公司得以保持其独特的企业文化和核心竞争力,在电子行业中持续领跑。

CommScope Inc公司的发展小趣事

CommScope Inc公司的前身可以追溯到1953年,在北卡罗莱纳州的山核桃成立的高级电缆公司。这个公司以其卓越的电话线产品赢得了市场的认可。到了1964年,康普的产品线开始使用高级电缆和同轴电缆,标志着公司在电缆技术领域的突破。随着技术的不断革新,1966年,康普在卡托巴县的福特社区开始数控制造,进一步提升了生产效率。1976年,大陆高级康普部门被Frank Drendel领导的投资者集团收购,这为公司日后的发展奠定了坚实的基础。

HDP_Power公司的发展小趣事

随着通信行业的快速发展,康普公司意识到光纤光缆在有线电视行业的重要性。因此,在1977年,康普公司合并了Valtec公司,一个独立的光纤技术领导者。这次合并不仅增强了康普在光纤技术方面的实力,也为其日后的全球化布局打下了坚实的基础。随后,康普通过一系列的战略合作和收购,逐渐在全球范围内建立了供应链和生产基地,为全球客户提供高效、可靠的通讯网络解决方案。

Cables To Go公司的发展小趣事

随着电子技术的快速发展,线缆行业也在不断革新。Cables To Go公司紧跟技术潮流,不断引进新技术、新工艺和新材料,推动产品升级换代。公司还与多所高校和科研机构建立了合作关系,共同研发新型线缆产品和技术。这些技术革新不仅提升了产品的性能和品质,还为公司的可持续发展注入了新的动力。


请注意,以上故事都是基于假设和虚构的,不代表Cables To Go公司的实际发展情况。如需了解该公司的真实发展故事,建议查阅相关新闻报道或公司官方资料。

Asia Electronics Ind Co Ltd公司的发展小趣事

面对日益激烈的市场竞争,Asia Electronics Ind Co Ltd深知优化供应链管理的重要性。公司加强与供应商的合作与沟通,确保原材料的质量和供应的稳定性。同时,公司还引入先进的供应链管理系统,实现供应链的透明化和高效化。通过优化供应链,公司降低了生产成本,提高了生产效率,为公司的持续发展提供了有力保障。

Conditioning Semiconductor Devices Corp公司的发展小趣事

CSDC深知人才是企业发展的核心。因此,公司一直注重人才的引进和培养。通过校园招聘、社会招聘等多种渠道,CSDC吸引了一批优秀的半导体专业人才。同时,公司还建立了完善的培训体系,为员工提供持续的学习和发展机会。这些举措不仅提升了员工的技能水平,也增强了公司的凝聚力和竞争力。

问答坊 | AI 解惑

单片机工具自制系列2

自制K149BC PIC专用USB接口编程器的完整资料…

查看全部问答>

PLD设计技巧——消除组合逻辑产生的毛刺

PLD设计技巧——消除组合逻辑产生的毛刺…

查看全部问答>

Linux面试题,看你能得多少分?

一.填空题 1. 在Linux系统中,以 方式访问设备 。 2. Linux内核引导时,从文件 中读取要加载的文件系统。 3. Linux文件系统中每个文件用 来标识。 4. 全部磁盘块由四个部分组成,分别为 。 5. 链接分为: 和 。 6. 超级块包含了 和 等重要的 ...…

查看全部问答>

stepldr引导eboot不成功

     根据datasheet (nand flash controller)The S3C2416 is equipped with an internal SRAM buffer called ‘Steppingstone’. This supports NAND flash boot loader. When you use IROM boot and select nand flash as boo ...…

查看全部问答>

为什么我在evc中输出只有emulator可选,没有设备可选?

为什么我在evc中输出只有emulator可选,没有设备可选? 这样我就没法把程序download到wince设备上了?为什么? 是不是少装了什么?请各位帮帮忙.…

查看全部问答>

求一完整程序~关于EVC4.0下的UDP编程

求一完整程序~关于EVC4.0下的UDP编程!有的大大请加我QQ 41368886 还有哪个大大有Pocket PC 2002一Win32 (WINCE X 86) Debug 的开发环境也发给我!  求~~跪求这两个 …

查看全部问答>

寻迹小车

各位大哥,跪求:寻迹小车原理图和程序,要详细的谢谢了!!…

查看全部问答>

SRAM的A0与FSMC_A1相连,这样怎么操作呢?

                                 求大侠指导一下…

查看全部问答>

symbol referencing errors 怎么办

我写了一个sdram的测试小程序,compile通过,没有错误,但是build的 时候给出 \\"c:\\\\ti\\\\c6000\\\\cgtools\\\\bin\\\\cl6x\\" -@\\"Debug.lkf\\" undefined               &nbs ...…

查看全部问答>