专访王俊:从百万基因组“驶向”人工智能
2015-07-30 来源:科技潮人
王俊(Jun Wang)是中国最著名的科学家之一。自从16年前在华大基因(BGI)成立之时加入到这一基因组测序大型机构以来,他参与完成了BGI一系列重大的研究成果。其中包括测序亚洲人、大熊猫和人类肠道微生物组的首个基因组。自2007年起王俊成为BGI的负责人。但在7月17日,这一研究机构对外宣布王俊将会辞去他在BGI担任的首席执行官职务,转而从事人类智能研究。
7月28日,王俊接受了Nature和Science网站的专访,畅谈了他现在想将自己的一生都贡献给一项新的“研究计划”的原因,他想构建出一个人工智能健康监测系统,来识别人类个体基因组数据、生理性状(表型)和生活方式之间的关系,从而能够为个体提供健康生活的建议,及预测和预防疾病。
Nature:你的人工智能计划背后的理念是什么?
王俊:大体上,我只是想建立一个具有大量数据的人工智能系统。然后,这一系统能够比我们更好地学习了解人类健康和人类生活。这一人工智能系统将尝试为生命设置一个公式。生命是数字化的,就像一个电脑程序——如果你想知道这一编程的结果,基因导致表型的机制,由于太过复杂因此你需要一个人工智能系统来找出其中的一些规律。
这一人工智能系统主要是两个部分组成。第一个是大型超级计算平台。通过云计算和超级计算中心我们已经可以访问这些平台。这些平台将运行或设计出一些算法来找出基因、生活方式和环境因子之间的关系,预测出表型。另一部分则是海量的数据。我们希望能够获得来自100万个体的数据,我们希望这些数据是流动的,也就是人们可以在任何时间点更新他们的表型信息。其他的大型计算机公司例如Google有可能最终会这样做,但我们想首先做到这一点。我们有处理海量数据的经验。
Science:你将会关注人工智能的哪些方面?
王俊:人工智能是人们使用的一个有趣的词汇。第一个目标是数字化100万个体的“组学”数据,包括DNA、RNA、蛋白质和代谢组学,并追踪他们的临床和行为数据。这需要一些新网络和利用机器学习,20年前我就已开始摆弄这些东西。
Nature:你需要100万个基因组来做这个?
王俊:为了真正地了解由许多基因决定的复杂性状,例如身高,将需要100万个样本。我们现在已有了10万个样本,但还不够。但我不想以100万个作为结束。接下来将会有1000万,1亿个。并且不只是基因组。我们将获得许多方面的数据——基因组学、蛋白质组学、代谢组学和脂类组学。以及其他的“组学”数据,我们将纳入你的生活信息,你的锻炼情况,环境数据。所有这一切都将成为它的组成部分。每人我们将获得一万亿字节,那么100万人将是百亿亿字节。
从基因型到表型所有东西都可以数字化。为了让人工智能系统能够运作,我们必须使其数字化。相比于基因组学,我更关注数字化生命。这不是一个百万基因组计划,而是一个百万数字化生命计划。
Nature:最终的目标是什么?
王俊:最终的目标是开发出一个生态系统。这将是一个虚拟的村庄。当人们“待”在这一虚拟村庄中时,它将会向人们提供一些建议如何能够生活得更健康和更长寿,包括建议他们应该吃些什么,应该进行怎样的锻炼。它可以在人们感到抑郁之前告知他们一些预警信号;当人们感到压力时,它会告诉他们如何来释放压力。所有这些建议都是建立在包括遗传构成和生活方式在内的各种因素基础之上。个体、医生、研究人员和制药公司将成为它的组成部分。
即便人工智能系统不能找到这些答案,一些制药公司或许能。这些数据将仍然是有价值的。
Nature:你将如何为这一计划筹措资金?
王俊:我想要生成基于100万份样本的第一个原型我有可能要设法筹措100亿元人民币(16亿美元)的资金。我还没有真正地思考如何弄到这笔钱。如果你在做正确的事——如果你有一个虚拟村庄可以让人们生活得更长寿、更健康——钱将会随之而来。我将会在几个商业模式上试水。每一个都将通过几种途径来设法让人们追随这一平台。我不知道哪种将会成功。或许我们必须招募1000万人来得到一个100万人的完整数据集。但谁在乎。让我们行动起来吧。
Science:是什么促成了这一决定?
王俊:有几个原因。最大的原因是当我还是一名大学生时我就接受了人工智能培训。对于我而言,生命科学和基因组学现在在处理来自数以万计样本的数据方面遇到了瓶颈,仍然没有足够地了解疾病的遗传学。分析这些庞大的数据集需要一些新的工具。人工智能和机器学习可以处理大型数据,也可以为人们的健康做点事情。
Nature:这一计划是你辞去华大基因首席执行官职务的唯一原因吗?有一些传言说,是因为你没有成功让公司上市而被迫辞职的。
王俊:人们猜测了很多的原因,这让我觉得很烦。首次公开招股(IPO)的计划正照着正确的路线进行。我辞去首席执行官职务的一个主要原因是,当前BGI正日益成为一个诊断学或研究服务模式,它现在相当的稳定。我想做的不只是这些。但BGI将仍然是这一新计划的一个重要组成部分。
Science:你将如何让人工智能系统融入到BGI的总体战略中去?
王俊:人工智能系统只是分析数据的一种方法。BGI将参与其中,但我还将寻找一些战略合作伙伴、大型信息数据公司和一些小数据公司。策略将会发生演变。目标是通过生成让整个卫生保健系统能够获取的数据来服务于普通百姓。这将需要科学和服务。它或许最终会有一些商业模式就像老BGI一样,将会有研究,也会是一个商业产品。
Nature:有人担心这听起来太过雄心勃勃,对此你想说什么?
王俊:我不知道。我只是做去。我经历过很多事情。此前人们也说过我有一些疯狂的想法——水稻基因组计划或短读取组装熊猫基因组(这是利用小片段来进行下一代测序的一个有影响力的范例)。但你知道,结果都相当不错。
这是我一辈子的研究计划。在我退休之前,我想做到这一点。我现在39岁,因此我希望能够在未来的20年里让整件事发生。我有点紧张,但也感到很兴奋,因为我知道我在做正确的事情。我是一个敢于冒险的人,我在用我所有的信誉下这个赌注。
Science:当你开始在BGI工作时,你曾想象到它会变成今天的样子吗?
王俊:我不能说我们设计了BGI变成今天的样子。但我们在某个时间点会遵循战略思维,并且它在演变。我是一个敢于冒险的人,我总是在瞄准一些更大、更具挑战性的东西,一些可以改变世界的东西。BGI走到了今天,这是我离开的好时机。