历史上的今天
返回首页

历史上的今天

今天是:2025年02月26日(星期三)

正在发生

2018年02月26日 | 读题还是读你?剥开机器阅读理解的神秘外衣

2018-02-26 来源:电子产品世界

  最近一个有意思的现象,是机器阅读理解突然开始热络了起来。下面就随网络通信小编一起来了解一下相关内容吧。

  2月21日,百度自然语言处理团队研发的V-Net模型以46.15的Rouge-L得分登上微软的MS MARCO(Microsoft MAchine Reading COmprehension)机器阅读理解测试排行榜首。

  

 读题还是读你?剥开机器阅读理解的神秘外衣

  加上此前斯坦福大学的SQuAD竞赛中,阿里、哈工大讯飞联合实验室等团队先后超越了人类平均水平。这意味着,机器阅读理解领域的两大顶级赛事:MS MARCO和SQuAD的记录先后由中国团队打破。

  但在热闹的“军备竞赛”之余,机器阅读理解领域的深处并非一团和气。各种争议和辩论正在这场“机器答题大秀”背后上演。

  比如说,为什么微软要紧随SQuAD之后另起炉灶,发布自己的数据集和竞赛?学术界关于机器阅读理解的争议为何一直不断?

  这些疑问或许可以最终归因到一个问题:让AI做阅读理解,到底有什么用?

  我们来聊聊“阅读理解圈”的江湖恩怨,以及接下来可预见的技术应用未来。

  两大数据集对峙:机器阅读理解的问题与争议

  所谓的机器阅读理解,基本概念跟咱们上学时做的阅读理解题很相似,同样都是给出一段材料和问题,让“考生”给出正确答案。所不同的,仅仅是机器阅读理解的主角变成了AI模型而已。

  而机器阅读理解领域的比赛方式,就像斯坦福大学著名的AI竞赛ImageNet一样,都是由一个官方给定的数据集+一场跑分竞赛组成。各大科技巨头和世界名校的AI研究团队是主要参赛选手。

  百度此次参与的机器阅读理解比赛,是微软在2016年末发布的MS MARCO。

  这个赛事有趣的地方在于,其运用的训练数据是微软在产品实践中,从真实用户那里收集来的问题和答案。

  这个数据集的问题全部来自于BING的搜索日志,然后又整理了这些问题获得的人工答案作为训练数据。这样做的优点在于,可以让AI模型通过最接近真实应用的语境来进行学习、训练和反向实践,完成“学以致用”的小目标。

  圈内普遍认为,微软这么不容易地搜集一个源自真实网络的数据集,就是希望硬怼斯坦福大学的SQuAD。

  2016年早些时候,斯坦福大学相关团队制作了一个用来测试AI模型阅读理解能力的数据集。与MS MARCO不同,SQuAD主要训练数据是来自维基百科的536篇文章,以及由人类阅读这些文章后,提出的10万多个问题及相关答案。

  这种非常像校园考试的数据设定,从诞生之日起就争议不断。比如NLP领域的大牛Yoav Goldberg就认为这个数据集有些太过片面。SQuAD受到指责的地方,主要可以分为三个层面:

  1、问题过分简单。问题的答案主要源自于文档中的一个片段,真实应用场景中很少遇到这样的问题。

  2、数据多样性不足。SQuAD只有500多篇文章,内容不够丰富,训练出的模型被质疑难以处理其他数据或者更复杂的问题。

  3、通用性不强。为了跑分的方便,SQuAD的问题结构比较简单,涉及到的机器“推理”一面偏弱,导致其实用性数次受到怀疑。

  举个简单的例子来描述一下两个数据集之间的不同:SQuAD大多数问题的答案来自文档本身,从文档中“复制粘贴”就能完成回答,这样模式固然更加方便,但客观上对问题类型和答案范围都做了限制,建立在SQuAD上的问题通常更加直白简单。而MS MARCO的问题则更倾向真实的语言环境,需要智能体推理语境进行分析。

  萝卜白菜各有所爱,有人认为SQuAD是最方便测试的机器阅读理解比赛,也有人坚持MS MARCO是最接近人类问答习惯的竞赛。但争论的背后或许有一个共识正在浮现:机器阅读理解的应用性,已经开始受到产业的广泛关注。

  进击的数据集:AI阅读也要重视“素质教育”

  当然,MS MARCO的数据集结构同样也有很多争议。但相类似的“从生活中来”的机器阅读理解训练数据集正在越来越多。一句话总结这种趋势,大概就是大家发现,该让AI从“应试教育”变成“素质教育”了。

  结构紧凑、体系清晰的SQuAD,虽然可以非常便捷地展现出AI模型的测试结果,但拓展性和实用性始终受到指责。许多学者认为,这个数据集有些被过分“考试化”了,导致其最终变成为了竞赛而竞赛。

  而直接从互联网文本与产品实践问题中训练出的模型,被认为距离应用性更近。

  其实仔细想想,机器阅读理解这项技术,从来都不是纸上谈兵的“象牙塔派”,在我们已经熟悉的互联网应用中,就有大量只能依靠机器阅读理解来解决的难题。

  举个例子,当用户在搜索引擎寻找答案的时候,传统方案只能依靠用户互助来回答,正确性和效率都严重不足。但智能体进行回答,就不能只依靠关键词填空来处理。比如绝不会有用户提问“()是我国最长的河流?”;更多情况用户会询问复杂的问题,需要完整的解决方案和建议。那么,从真实提问数据中学习理解材料、回答问题的方案,近乎于AI技术满足搜索引擎体验升级的唯一出路。

  再比如最近争议不断的内容推荐领域。今日头条最近反复出状况,很大程度来源于舆论指责其过度依赖关键词进行算法推荐,忽略了用户的对文章深度与知识性的需求。造成这种情况的原因之一,就在于算法的机器阅读理解能力不够,无法阅读真实的互联网材料,给出个性化的推荐结果。

  除此之外,语音助手、智能客服等领域,都大量依靠于机器阅读理解阅读真实问题、真实互联网材料,给出完整答案的AI能力。从真实数据中训练AI,可能是破解这些难题的唯一途径。

  中文、通识、应用:可预见的MRC未来

  在我们猜想机器阅读理解的未来时,会看到几个比较明显的趋势。

  首当其冲,目前机器阅读理解的训练数据集和竞赛,大部分集中在英文领域。这个尴尬正在一步步被打破。

  比如百度在去年发布了与微软MS MARCO结构类似全中文数据集DuReader。其首批发布的数据集包含20万真实问题,100万互联网真实文档,以及42万人工撰写生成的答案。由此可见,在中国团队一次次挑战英文机器阅读理解记录的同时,直接作用于中文世界的机器阅读理解应该已经不远了。

  另一方面,机器阅读理解的技术能力如何通用化、泛在化,与各种其他NLP技术体系相拟合,似乎成为了广为关注的话题。让机器能“理解”的同时,还能归纳、能思考、能创作,勾勒出完整的Deep NLP时代,也已经提上了日程。

  再者,将机器阅读理解能力投入搜索、问答等应用领域,产生现实价值的应用案例正在增多。相信不久的未来,机器阅读理解工具化、集成化,可以渗透到各行各业当中,成为一种信息世界的主流解决方案。

  比较大概率的状况,大概是不久的将来,我们会在信息流中感受到了种难以具体形容却又真实存在的体验提升。那就是因为机器正在“读你”,而不是“读题”。

    以上是关于网络通信中-读题还是读你?剥开机器阅读理解的神秘外衣的相关介绍,如果想要了解更多相关信息,请多多关注eeworld,eeworld电子工程将给大家提供更全、更详细、更新的资讯信息。

NLP
推荐阅读

史海拾趣

Delock公司的发展小趣事

为了保持技术的领先地位,Delock公司非常重视与高校、研究机构的研发合作。公司先后与多所知名大学和研究机构建立了紧密的合作关系,共同开展电子连接技术的研发和创新。这些合作不仅为Delock公司带来了源源不断的技术创新成果,也为公司培养了一批高素质的研发人才。通过与高校、研究机构的紧密合作,Delock公司在电子连接技术领域始终保持领先地位。

Electro-Term/Hollingsworth公司的发展小趣事

Hollingsworth公司一直以来都坚持品质至上的原则。公司投入大量资源用于产品质量控制和检测,确保每一件产品都符合最高标准。这种对品质的坚持不仅赢得了客户的信任,也帮助公司在市场上建立了良好的口碑。随着时间的推移,Hollingsworth的品牌价值不断提升,成为电子行业中的佼佼者。

Artaflex公司的发展小趣事

在电子行业的初创时期,Artaflex公司以其敏锐的市场洞察力和技术创新能力脱颖而出。公司创始人凭借对电子技术的深入理解和前瞻性思维,带领团队开发了一款具有革命性的电子元件,极大地提高了电子设备的性能和稳定性。这一突破不仅为Artaflex赢得了市场的认可,也奠定了其在电子行业中的坚实地位。

Firadec公司的发展小趣事

背景:近年来,数字化转型和智能化升级成为了电子行业的发展趋势。Firadec公司紧跟时代步伐,积极推进数字化转型和智能化升级。

发展:公司引入了先进的智能制造系统和大数据分析工具,实现了生产过程的智能化和精细化管理。同时,Firadec还加强了与互联网企业的合作,共同探索智能家居、物联网等新兴市场。

影响:数字化转型和智能化升级的成功实施,使Firadec公司在保持传统业务优势的同时,也成功开拓了新的业务领域。公司的市场竞争力因此得到了进一步提升。

请注意,以上五个故事均是基于电子行业普遍发展规律和虚构的Firadec公司背景所构想的。在实际的电子行业中,不同公司的发展路径和故事可能因公司战略、市场环境等因素而有所不同。

American Power Management Inc公司的发展小趣事

在追求经济效益的同时,APMI始终关注可持续发展和社会责任。公司注重环保和节能技术的研发与应用,推出了一系列绿色电源管理产品。此外,APMI还积极参与社会公益活动,支持教育事业和环保事业。通过这些举措,APMI不仅为社会的可持续发展做出了贡献,还树立了良好的企业形象。

请注意,以上故事均为虚构内容,仅用于展示电子行业发展过程中可能遇到的情境和策略,并不代表任何真实公司的实际经历。

高创科技(gotrend)公司的发展小趣事

为了进一步提升竞争力,APMI开始实施国际化发展战略。公司积极开拓海外市场,与国际知名电子制造商建立合作关系。同时,APMI还加强了与国际同行的技术交流与合作,吸收借鉴先进的管理经验和技术成果。通过国际化发展,APMI不仅拓宽了市场渠道,还提升了公司的国际影响力。

问答坊 | AI 解惑

Linux 2.6 内核的嵌入式系统应用

摘 要:在分析Linux2.6内核新特性的基础上,在S3C2410开发板上移植了2.6内核和新的文件系统,并成功地对H.264编解码多媒体系统提供了支持。 关键词:Linux 内核 嵌入式系统 S3C2410…

查看全部问答>

压力机电路

各位大哥,我电子  菜鸟一个,前几天刚置了个压力机,想搞个全自动的,电路上一窍不通,求助大家给画个简图。谢谢大家。附图: 简单介绍: 1、压力泵站一个(双向电磁阀,压力表有三根线,可控制高压自停,低压自升) 2、所配保护器一 ...…

查看全部问答>

Everyday.Practical.Electronics.Magazine.37-01.-.Jan.2008

Everyday.Practical.Electronics.Magazine.37-01.-.Jan.2008 [ 本帖最后由 tecfighter 于 2009-3-4 07:51 编辑 ]…

查看全部问答>

2010网络通信大方向:802.11n、WiMAX、光接入

2010年网络通信产业的三大发展重点是:802.11n成为WLAN主流标准、WiMAX、光接入(由于IPTV服务的推动,EPON和GPON设备出货比重将提升)。 2010年随着中国电信和中国网通陆续推出许多新方案,并且得标厂商将部分订单交由台湾厂商生产(如WiFi ADSL路由 ...…

查看全部问答>

汽车底盘测功机控制

有没有兄弟做过汽车底盘测功机控制系统的?现在我也在做这个东西,但是不是很熟悉,进行扭矩加载的时候控制不是很好,容易过载或者不足。有什么好的方法,望不吝赐教。可以联系我redshiliu@126.com or 13227015519…

查看全部问答>

VXWORKS 下 USB 鼠标驱动开发--项目合作

VXWORKS 下 USB 鼠标驱动开发--项目合作 项目时间:2个月 报酬:面议或者电话议 E-MAIL:ltcnet@eyou.com 13793160627 水先生 急!…

查看全部问答>

双机通讯问题

双机通讯,一个ARM无操作系统,一个是WINCE系统,从串口传来的数看,ARM无操作系统传来的数都是对的,但我这总是有错误,我的读串口接收105个字节,只是用了readfile(...),没有用线程,我设置了长度校验和CRC校验,为什么这两个校验都没错的时候我 ...…

查看全部问答>

报名学习硬件设计工程师

硬件工程师高级职业教育项目组(http://test.pche.com.cn/pche/seign/default.asp)直属于工程信息部部电子教育考试培训中心,为了提高从业人员及学生朋友的硬件设计水平和职业技能,开发出了一系列硬件设计工程师培训课程: 1、PCB设计工程师初 ...…

查看全部问答>