历史上的今天
返回首页

历史上的今天

今天是:2025年01月17日(星期五)

正在发生

2019年01月17日 | 谷歌科研成果 2018 年年终总结(下篇)

2019-01-17 来源:百家号

2019 年 1 月 15 日,谷歌高级研究员 Jeff Dean 和谷歌人工智能主管代表整个谷歌研究社区发布了 2018 年 AI 年度总结,本文是年度总结的下篇。本文主要总结了AutoML、TPUs、开源软件与数据集和机器人学等技术和应用进行了总结,并对 2019 年进行了展望。雷锋网 AI 科技评论编译整理如下:

谷歌在 2018 年在下面这些方面也有所进展:

AutoML

AutoML 也被称作「元学习」,主要通过机器学习方式让机器学习的某些方面实现「自动化」。多年来我们一直在该领域进行研究,目标是开发出一个懂得借鉴过往积累的见解与能力,进而自动发现并解决新问题的系统。早期我们使用得最多的是强化学习,如今我们也将目光锁定在了进化算法上。去年,我们向大家展示了如何通过进化算法为视觉任务自动发掘最先进的神经网络架构。此外,我们也探索了强化学习在神经网络架构检索以外的更多作用,最后成功证明可用于下列问题的解决上:

1)自动生成图像变换序列,提高各种图像模型的准确性;

2)找到一种全新的符号优化表达形式,比起常用的优化规则效果更好。

我们在 AdaNet 的工作展示了如何创建一个学习效果有保障、使用上快速灵活的 AutoML 算法。

AdaNet 自适应地增强了神经网络的集成。它在每次迭代的过程中计算每个候选者的集合损失,再从中挑选最优秀的候选者进入下一轮迭代。

我们另外一项工作重点是自动发掘计算效率最高的神经网络架构,以便它们能在一些计算资源和推理时间有限的环境中(如移动电话、自动驾驶车辆等)运行。为此,我们证明只要在强化学习架构搜索的奖励函数中把模型的准确率与推理时间进行结合,就能找到既满足高度准确性又符合特定性能约束的模型。此外,我们还探索了如何通过 ML 来学习自动压缩 ML 模型,以更少的调试参数和计算资源消耗的方式。

TPUs

Tensor Processing Units (TPUs) 是谷歌内部自主研发的 ML 硬件加速器,最开始的设计初衷就是为了用于大规模的训练与推理上。TPUs 让谷歌的许多研究得以实现突破,比如广为人知的 BERT(前文提过),此外,通过开源的方式,它能让世界各地的研究人员对谷歌的研究进行拓展并实现突破。最典型的例子,任何人都可以通过 Colab 免费在 TPUs 上对 BERT 进行微调,这里要提一下 TensorFlow Research Cloud,它使数以千计的研究人员得以从大体量的免费云 TPU 供给的计算能力中受惠。此外,我们还将多代 TPU 硬件作为商用云 TPUs 对外出售,其中包括被称作 Cloud TPU Pod 的 ML 超级计算机,这使大规模的 ML 训练服务变得触手可及。仅就谷歌内部而言,除了让 ML 研究取得快速进步,TPUs 还推动了谷歌核心产品的重大改进,其中包括谷歌检索、YouTube、Gmail、Google 智能助理和谷歌翻译等。我们期待看到来自谷歌内部和其他地方的 ML 团队可以通过 TPUs,以其前所未有的计算规模在 ML 领域取得更多突破。

单个 TPU v3 设备(左)与 TPU v3 Pod 的部分部件展示(右)。TPU v3 是谷歌最新一代的 Tensor Processing Unit(TPU)硬件。它以云 TPU v3 的形式对外出售,采用液体冷却技术以获得最佳性能(计算机芯片 + 液体 = 太有意思了!),而完整的 TPU v3 Pod 将可以为全球最大的 ML 任务提供高达 100 petaflops 的计算能力。

开源软件与数据集

发布开源软件与创建全新的公共数据集,是我们为软件工程研究社区做贡献的最主要两种方式。这方面我们最大的贡献之一要属 TensorFlow,这是一款发布于 2015 年 11 月的 ML 计算系统,这些年来倍受欢迎。2018 年我们刚为 TensorFlow 庆祝完第 3 个生日,这期间 TensorFlow 已经被被下载超过 3000 万次,且有超过 1700 名的贡献者添加了 45 000 次的 commits。我们在 2018 年为 TensorFlow 更新了 8 个主要版本,增加了动态图机制和分发策略等主要功能。在研发过程中,我们启动了吸引社区注意力的公众设计评审活动,通过组建特殊兴趣小组留住贡献者。随着 TensorFlow Lite、TensorFlow.js 和 TensorFlow Probability 等产品的相继推出,TensorFlow 生态系统也在 2018 年迎来了大幅增长。

我们很高兴得知 TensorFlow 作为顶级机器学习和深度学习框架在 Github 上拥有强大的号召力。TensorFlow 团队也一直致力于实现快速解决 Github 上存在的问题,为外部贡献者提供更顺畅的操作通道。根据谷歌学术检索,我们已公开发表的论文持续为全世界的大部分机器学习和深度学习研究提供了有效支持。TensorFlow Lite 仅推出 1 年,便在全球超过 15 亿的设备上获得使用;成为 JavaScript 使用排名第一的 ML 框架;同时在对外放出的短短 9 个月内,已在 Github 获得超过 2 百万次的内容分发网络(CDN)点击量、20.5 万次下载量以及超过 1 万次的星星点亮。

除了继续耕耘现有的开源生态系统,2018 年我们还做了以下事情:

引入一个用于灵活、可再现强化学习的全新框架https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

引入一个可以快速习得数据集特征的可视化工具(无需编写任何代码)https://ai.googleblog.com/2018/09/the-what-if-tool-code-free-probing-of.html

增加一个涉及 learning-to-rank 算法(以最大化整个列表效用的方式对项目列表进行排序的过程,适用于包括搜索引擎、推荐系统、机器翻译、对话系统甚至是计算生物学等领域)的高级机器学习问题库http://ai.googleblog.com/2018/12/tf-ranking-scalable-tensorflow-library.html

发布一个快速、灵活的 AutoML 解决方案框架发布一个通过 TensorFlow.js 执行浏览器实时 t-SNE 可视化工作的库增加用于处理电子医疗数据(会在本文医疗保障环节提到)的 FHIR 工具 & 软件

针对完整 MNIST 数据集的 tSNE 嵌入实时演变过程。该数据集包含 60,000 个手写数字图像。现场演示请点击:https://nicola17.github.io/tfjs-tsne-demo/

公共数据集是触发灵感的绝佳来源,可带领许多领域取得重大进步,因为公共数据集能够为社区带来有趣的数据和问题,并在许多任务的解决上形成有益的竞争氛围。今年我们很高兴能够发布谷歌数据集检索工具(Google Dataset Search),这是一款可以让我们从各个网络渠道查找想要的公共数据集的全新工具。从数百万的通用注释图像或视频数据集、到用于语音识别的孟加拉人群源数据集、再到机器人手臂抓取数据集,这些年我们策划并发布了多个崭新数据集,即使在 2018 年,数据集的清单也还在不断增加中。

通过 Crowdsource 软件添加到 Open Images Extended 的图片(源自印度 & 新加坡)

我们还发布了 Open Images V4,这是一个包含 15.4 M 基于 600 种类别多达 1.9 M 图像的边框数据以及 30.1 M 源自 19,794 种类别的人工验证图像级标签的数据集。我们通过 crowdsource.google.com 为数据集添加了 5.5M 由世界各地数百万用户提供的生成注释数据,有效丰富了数据集在人和场景方面的多样性。我们还发布了具备视频视听注解功能的 Atomic Visual Actions (AVA) 数据集,可以有效提升机器理解视频中人类的行为与语言的能力。此外,我们还官宣了最新的 YouTube-8M 挑战赛和第二届 YouTube-8M Large-Scale Video 理解挑战赛与 Workshop。其他发布的数据集,如 HDR + Burst Photography 旨在为计算摄影领域的各种研究提供帮助;Google-Landmarks 是一个作用于地标识别的全新数据集。除了发布数据集,我们还探索了相关的一些新技术,比如 Fluid Annotation 可以让我们快速创建可视化数据集,通过一种探索性的 ML 驱动接口实现更快的图像注释行为。

Fluid Annotation 基于 COCO dataset 图像的可视化效果。图片来源:gamene,原始图片。

我们时不时还会给研究界树立新挑战,以便聚合大家一同来解决棘手的研究问题。一般来说,我们会通过发布新的数据集来达到这个目的,但也有例外的时候。比如今年,我们就围绕包容性图像挑战赛制定了全新的挑战,致力于创造免除偏见、更具鲁棒性的模型;iNaturalist 2018 挑战赛旨在让计算机得以细致区分物体的类别(如图像中的植物种类);在 Kaggle 上发起的 "Quick, Draw!" Doodle Recognition 挑战赛试图为 QuickDraw 游戏创建更好的分类器;还有 Conceptual Captions 作为大规模的图像字幕数据集挑战赛,旨在推动更好的图像字幕模型研究。

机器人学

2018 年,我们在理解机器学习如何教机器人行动这个目标方面取得了重大进展,在教机器人掌握新事物的能力方面达到了新的里程碑(2018 年 CORL 的最佳系统论文)。我们还通过结合机器学习和基于采样的方法(2018 年 ICRA 的最佳服务机器人论文)以及研究机器人的几何构造,在机器人运动学习方面取得了进展。我们在机器人通过自主观察更好地感知世界结构这一能力上取得了很大的进步。我们第一次成功地在真正的机器人上在线训练了深层强化学习模型,并且正在寻找新的理论方法,学习控制机器人的稳定方法。

人工智能在其他领域的应用

2018 年,我们将深度学习应用于物理和生物科学的一系列问题中。使用深度学习,我们可以为科学家提供相当于数以百计的挖掘数据研究助理,从而提高他们的创造力和生产力。

我们关于神经元高精度自动重建的论文提出了一个新的模型,与以前的深度学习技术相比,它将连接体数据(connectomics data)自动解释的准确性提高了一个数量级。

图为我们的算法正在跟踪鸣禽大脑中的一个神经突触

将机器学习应用于科学的其他一些示例有:

通过对恒星的光曲线数据进行挖掘,发现太阳系外的新行星识别短 DNA 序列的起源或功能自动检测离焦显微镜图像用数字技术构建同一个细胞带有污点的图像自动绘制肽链的质谱分析图

在 Fiji(图像 J)里面,一个 TensorFlow 模型对显微镜细胞拼接图像的聚焦质量进行了评估。边界的色调表示预测的焦点质量,边界亮度表示预测的不确定性。

健康

在过去的几年中,我们一直在将机器学习应用于健康领域,这一领域影响着我们每一个人,我们相信通过机器学习可以增强专业医疗人员的直觉和经验,从而为医疗领域带来巨大的改变。我们一般会与医疗保健组织合作,解决基础研究问题(利用临床专家的反馈使我们的结果更加可信),然后将结果发表在权威的同行评审的科学和临床期刊上。一旦研究得到临床和科学验证,我们就进行用户和 HCI 研究,以了解在现实的临床环境中如何部署它。2018 年,我们将临床任务预测也纳入了计算机辅助诊断的领域。

在 2016 年底,我们发表的研究表明,在一项回顾性研究中,接受过糖尿病视网膜病变体征视网膜底图像评估训练的模型在这项任务中的表现比美国医学委员会认证的眼科医师略好。2018 年,我们能够证明,通过让视网膜专家对培训图像进行标记,并使用一个判定方案(在该方案中,多个视网膜专家聚集在一起,对每个眼底图像进行一次单独的集体评估),我们可以得出一个与视网膜专家相当的模型。后来,我们发表了一份评估报告,展示了眼科医生如何利用这种机器学习模型,使他们做出比单独做出比不使用机器学习时更准确的决定。我们已经在印度的 Aravind 眼科医院和泰国卫生部附属的 Rajavithi 医院等 10 多个地点与我们 Alphabet 的同事合作,共同部署了这种糖尿病视网膜病变检测系统。

左侧是一张视网膜眼底图像,被眼科专家评审小组评定为中度 DR(「MO」)。右上角是模型预测得分的图示(「N」=无 DR,「MI」=轻度 DR,「MO」=中度 DR)。右下角是医生在没有帮助的情况下给出的一组分数。

我们还发表了一个机器学习模型的研究,这个模型可以通过视网膜图像评估心血管病患病风险。这是一种新型的无创生物标记方法,它可以帮助临床医生更好地了解患者的健康状况。

我们今年还继续关注病理学,展示了如何使用机器学习改善前列腺癌的分级,通过深度学习来检测转移性乳腺癌,并开发了一个增强现实显微镜的原型,它可以通过将从计算机视觉模型中获得的视觉信息实时叠加到显微镜学家的视野中,辅助病理学家和其他科学家的工作。

在过去的四年中,我们在利用电子健康记录数据进行深度学习,从而做出临床相关预测方面做了大量的研究工作。2018 年,我们与芝加哥大学医学院、加州大学旧金山分校和斯坦福大学医学院合作,并将研究成果发表在《自然数字医学》杂志上。我们的研究是关于如何将机器学习模型应用于未识别的电子病历中,与当前的最佳临床实践相比,它可以对各种临床相关任务做出更准确的预测。作为这项工作的一部分,我们开发了一些工具,使得在人物差异很大,底层 EHR 数据集也非常不同的情况下,创建这些模型变得更加容易。我们开发了快速医疗保健协作资源(Fast Healthcare Interoperability Resources (FHIR))标准相关的开源软件,以帮助更容易和更标准化地处理医疗数据(请参阅此 Github 代码库)。最近,团队与合作伙伴共同努力,在《Nature Biotechnology》上发表了同行评议论文。

在将机器学习应用于历史收集的数据时,重要的是要了解过去经历过人类结构偏差的人群,以及这些偏差是如何在数据中编码的。机器学习提供了一个机会来检测和解决偏见,并积极推进健康公平,这也正是我们正在努力推进的一个方面。

研究推广

我们采用了许多不同的方式与外部研究团体互动,包括教师参与和学生支持。我们很荣幸接收数百名本科生、硕士和博士生作为实习生,并为北美、欧洲和中东地区的学生提供多年的博士奖学金。除了财政支持,每个奖学金获得者都被指派一个或多个谷歌研究人员作为导师,我们召集所有的研究员参加一年一度的谷歌博士奖学金峰会,在那里他们可以接触到谷歌正在进行的最先进的研究,并有机会与谷歌的研究人员以及其他来自世界各地的博士生建立联系。可以查看视频:https://youtu.be/7RcUokN_eCg。

Google AI 实习生服务是这项奖学金计划的补充,它的形式是,让想要学习进行深度学习研究的人花一年时间与 Google 的研究人员一起工作并接受指导。2018 年是这项服务的第三年,全球的谷歌员工都加入了不同的团队,从事机器学习、感知、算法和优化、语言理解、医疗保健等领域的研究。目前该项目第四年的申请已经结束,我们很期待看到研究人员在 2019 年将进行的研究。

每年,我们还通过我们的 Google Faculty Research Awards 计划为一些研究项目的教员和学生提供支持。2018 年,我们还继续在谷歌(Google)为特定领域的教职员工和学生举办研讨会,包括在印度班加罗尔办事处举办的人工智能/机器学习研究与实践研讨会、在苏黎世办事处举办的算法与优化研讨会、在桑尼维尔举办的机器学习医疗保健应用研讨会、在剑桥举办了关于公平与偏见的研讨会。

我们认为,公开向对广泛的研究群体作出贡献是支持健康、高效的研究环境的关键部分。除了开放源代码和发布数据集之外,我们的大部分研究成果都在顶级会议和期刊上公开发布,我们还积极参与各种不同学科范围的会议组织和赞助。我们参与了 ICLR 2018、NAACL 2018、ICML 2018、CVPR 2018、NEURIPS 2018、ECCV 2018 和 EMNLP 2018。同时,2018 年谷歌还广泛参与了 ASPLOS、HPCA、ICSE、IEEE Security & Privacy、OSDI、SIGCOMM 等会议。

新地方,新面孔

2018 年,我们很高兴地迎来了许多具有不同背景的新人加入我们的研究机构。我们宣布成立在非洲的第一个人工智能研究实验室,它位于加纳共和国的首都阿克拉。我们扩大了在巴黎、东京和阿姆斯特丹的人工智能实验室规模,并在普林斯顿开设了一个研究实验室。我们将继续在全球各地的办公室招聘人才,您可以了解更多有关加入我们的信息。

展望 2019 年

这篇博文只总结了 2018 年我们进行的研究的一小部分。回顾 2018 年,我们为我们所取得成就的广度和深度感到兴奋和自豪。2019 年,我们期待对谷歌的方向和产品产生更大的影响,也期待着对更广泛的研究和工程界产生更大的影响!


推荐阅读

史海拾趣

Abbotec Incorporated公司的发展小趣事

Abbotec Incorporated公司自成立以来,一直致力于电子技术的研发与创新。在某一年,公司研发团队成功开发出一款具有划时代意义的芯片,这款芯片在性能上大幅提升,同时降低了能耗。这一技术突破迅速引起了业界的关注,Abbotec因此获得了大量的订单,公司规模迅速扩大。

Freqtech Ohg公司的发展小趣事

面对电子行业快速迭代的市场环境,Freqtech Ohg公司敏锐地察觉到传统业务面临的挑战。公司果断决定进行业务转型升级,从单一的高频电子元件生产向系统解决方案提供商转变。通过整合上下游产业链资源,Freqtech成功开发出了一系列针对特定应用场景的高频电子系统解决方案,如5G通信基站、卫星导航系统等。这一转型不仅为公司带来了新的增长点,还进一步巩固了其在行业内的领先地位。

东科半导体(DK)公司的发展小趣事

东科半导体(DK)公司自创立之初,就专注于电源管理芯片的研发与生产。公司初期面临资金紧张、技术储备不足等挑战,但凭借对技术的执着追求和对市场的敏锐洞察,东科逐步在行业中崭露头角。公司创始人带领团队夜以继日地研发,成功推出了一系列具有竞争力的电源管理芯片产品,赢得了市场的认可。

千志电子(CCO)公司的发展小趣事

为了进一步拓展业务版图,千志电子开始进军国际市场。2006年,千志电子在香港设立了千志电子(香港)有限公司,将其作为国际服务据点重心之一。这一举措使千志电子能够更好地了解国际市场需求和趋势,加强与国外客户的联系和合作。同时,千志电子还积极参加国际展览和论坛,展示其优质产品和先进技术,提高了品牌知名度和国际影响力。

Anytek Technology Corporation Ltd公司的发展小趣事

Anytek Technology Corporation Ltd自创立之初,便敏锐地捕捉到了车载电子产品的市场潜力。2003年,公司果断进军车载及行车记录仪领域,凭借前瞻性的市场洞察力和技术积累,迅速在行业内崭露头角。当时,随着汽车保有量的不断增加,行车记录仪作为保障行车安全、记录行车过程的重要设备,市场需求日益旺盛。Anytek凭借高品质的产品和专业的服务,赢得了广大消费者的信任和好评。

Gentron Corp公司的发展小趣事
如果闪烁速度不稳定,可以尝试调整定时器的电阻和电容值,以改变振荡频率。

问答坊 | AI 解惑

希望大家可以帮帮忙!!!

谁有开关电源的方案及原理图,或者逆变电源的。…

查看全部问答>

Sony下一代概念电脑

每天都会有超酷超炫的概念电脑被设计师们设计出来,然而这么多的概念也不能阻止设计师对创意的渴望,设计师Hiromi Kiriki为Sony设想了下一代概念电脑,这是一个全新的概念,打破传统电脑的形式,它可以作为手镯一样戴在手腕上,运用柔性OLED触摸式 ...…

查看全部问答>

这个网站里的高手是那么的可爱可敬

这个网站里的高手是那么的可爱可敬, 刚注册几天的菜鸟发现在这里有这么多的高手帮忙解决问题,从不嫌弃问题的弱智!   有几个人的名字我都记下来了。 不要对我这么的好哦 我怕我会迷恋哦!!! 嘻嘻嘻…

查看全部问答>

进一步学习。。。大牛们来指教下!

学习完何老大的书,然后自己该看一点什么驱动?或写写一点什么驱动呢?…

查看全部问答>

关于基于AT89C51及GPRS的安防系统设计的提问

我是一个大四学生,正在做毕设,又在准备研究生复试,有点忙不过来,请教一下各位老师,指点一下毕设思路。 题目是:利用GPRS业务设计一个基于AT89C51及GPRS的远程安防系统,实现警情的及时识别和无线自动报警。主要任务是通过对GPRS协议的分析, ...…

查看全部问答>

[求助]使用DrawText如何实现翻页?

请问在某个RECT范围内显示文字,如果文字内容超过一屏,如何实现翻页显示?…

查看全部问答>

WinCE display driver怎样支持4bpp?

想写一个支持4bpp灰度的基于GPE的display driver要怎么做?怎么让OS知道我支持哪16种颜色? 是不是要创建一个调色板,我需要算出这16种灰度颜色对应的RGB值,然后放在调色板里么?还是只要设置成4bpp,OS就默认是灰度颜色?谢谢~~…

查看全部问答>

关于STM32 中CAN 的过滤器设置问题

最近在捣鼓STM32的CAN 模块。虽然算是基本上能够发送接收数据了,但是总觉得对他的发送和接收比较模糊。问题就出在了对过滤器的设置  以及接收中的某些设置上,长话短说。大家看一下代码就明白我的疑问了。代码如下: void CAN_Configuration ...…

查看全部问答>

小功率反激电源EMI抑制方法

小功率反激电源作为市场上最为成熟的电源之一,在电力电子行业占据相当大的比重。目前介绍开关电源电磁兼容的文章很多,不过考虑到市场化,小功率反激电源只用一级EMI滤波,无散热片,还有很重要的一点,要考虑可生产性。这与单纯的电磁兼容研究有 ...…

查看全部问答>