收购Fwdnxt,美光为入局AI处理器打下伏笔
2019-11-08 来源:venturebeta,半导体行业观察编译
早前,全球最大的存储芯片制造商之一的美光科技(Micron Technology)收购了人工智能硬件和软件初创公司Fwdnxt时,此举可能非常有趣。如果能取得成果,Fwdnxt可以使美光科技与英特尔和英伟达等合作伙伴进行直接竞争,因为美光科技认为内存和AI计算正在融合到同一个架构中。美光这个项目的负责人人之一是史蒂夫·帕洛夫斯基(Steve Pawlowski),这是前英特尔芯片架构师,他拥有数十项专利。Pawlowski现在是美光公司高级计算解决方案副总裁。与美光的存储芯片结合使用时,Fwdnxt(发音为“ forward next”)将使美光能够具备探索数据分析所需的深度学习AI解决方案的能力,尤其是物联网和边缘计算。也许它将制造基于AI的存储芯片,或者包括AI的存储芯片。美光公司首席执行官Sanjay Mehrotra说,美光公司正在从事这项工作,因为“昨天的计算体系结构不适用于明天……从长远来看,我们认为计算最好在内存中完成。”Steve Pawlowski: 2014年,我离开英特尔时来到了美光,当时他们说:“您想做什么?”我说:“我坚信计算和内存的融合对于提高性能和降低延迟至关重要。而你们是一家记忆公司。你们拥有技术,我想在这里解决这个问题。”他们说,“好。”我有一个小组,专注于发现计算和内存的问题。我们先可以开始测试,开始将概念引入产品中,但不会增加成本。我在英特尔学到了一件事,这是我永远不会忘记这个故事:我们曾经拥有数学协处理器。80287,80387。我们在387上赚了可观的钱。我们有一个聪明的主意,那就是如果将协处理器集成到486中,我们可以更快更好地做到。我们做到了,突然之间我们没有了足够的足迹(footprint.)。不需要它的人说:“您不需要为此死区向我收费。”而需要它的人说,“您将与其他人一样付给我,因为我是一个有利的客户。”实际上,整个业务归于零。我在当中获取的教训是:直到有绝大多数人从中获得真正价值之前,您不能增加更多的复杂性和成本,并希望人们立即支付费用。因此我们关注的重点是找到人们今天可以从中获得价值的关键事物,然后看看您是否可以随着时间的推移扩大泡沫。我将其视为八到十年的旅程。在那些年末,我可能回头一看,意识到我耗费了他们。或者我可以回头说:“哇,我们可能还没到这里,但是我们做得很好。”VentureBeat:关于此可能产生的结果,这引发了很多想象力,但是您是否会暗示某些特定的内容?Pawlowski: 有一件事,你在这里已经听过很多次了,那就是AI在边缘。我们关注这个问题的原因是,没有一个现成的编程模型或现成的架构可以让你与市场竞争。可以说,每个人都在争着进入同一个市场。寻找机会去那里做点什么。人们不会看着你说:“美光是一家内存公司。你为什么要谈这个?“他们是这样看的——我们在FPGA上有这种能力,我们的高性能内存和架构映射在FPGA上。我们负责处理所有的抽象,所以你不必成为一个VHDL程序员。您愿意开始处理数据集的问题吗?有趣的是,我并不需要去推动它。我们一直在参加FPGA会议之类的活动。主要是政府机构来说,“我们这里有个问题。我们想在这方面多做些尝试。“政府的问题是,他们很早就兴奋起来了,但如果你想做什么事,那就得花很长时间。”采购周期很长。合同是长期的,还有其他一切。我们决定着眼于一般市场。有一家汽车公司来了,他们说,“我们还没有达到Level 5,但我们肯定可以生产达到Level 3,Level 4的自动驾驶汽车,我们希望能够利用网络告诉我们正在发生什么。这看起来是有趣的。你愿意和我们一起工作吗?内部很多人说:“他们为什么对与你合作感兴趣?”“这是因为我不会进来告诉他们需要做什么。我说,“这就是我们所拥有的。我们能为您做些什么?他们说:“好吧,你愿意听我们的。这是我们的问题。”信不信由你,我从2005年AMD推出的Opteron中吸取了教训。当时我们仍在推广7千兆位处理器、33级流水线,并且没有人去那里。我们去了华尔街,那是 您想要爬进贝壳的一刻,因为它们确实被照亮了。但我说:“你能再给我们一次机会吗?”我们能坐下来了解一下我们的工作量吗,和你一起工作,然后我收回那句话,我们可以创造更好的产品吗?我们做到了。瑞银(UBS),我记得他们在一篇专栏文章中写道,“你可能造不出最大的芯片,也造不出最好的芯片,但你来了,就理解了我的问题。”“这是真正理解客户和他们的问题,以及你能做什么。如果你这么做了,却没有帮助他们,嘿,你学到了一些东西。VentureBeat: 那是不是以为着你们在开发一种新的记忆体,还是弄清楚了在哪里进行处理?Pawlowski:答案是肯定的。但它是真正理解动态的。顺便说一下,这取决于模型。我刚才和下面的人聊了聊有些语言模型需要100 GB的参数。当你看到有人说,“嘿,我有2 GB,4 GB时,”这适用于大多数型号,但不是所有型号。模型真的在进化。这也取决于解决方案的延迟。我不知道你们是否看过下面OHSU的视频那位女士患了乳腺癌。他们需要大量的数据,因为他们想把所有的电子显微镜图像放在一起,建立一个3D卷积模型,即肿瘤的3D表示。他们没有足够的时间进行讨论,因为他们想要在一天甚至一个小时内获得可操作的见解。我们与CERN的合作,现在需要数据。我们必须在微秒内做出决定。这是有趣的事情还是我们将其放在地板上?不同的解决方案需要不同类型的存储。英特尔的经历让我清楚知道程序中的指令是什么。我也知道他们是如何在机器中执行的,然后进入系统。所以当我来到美光时,我唯一看到的就是地址和命令。读/写命令和地址。我完全不理解,这个东西是把15个不同的东西复制到不同的元素(elements)上,还是覆盖,还是什么?有了我们在6月合作和收购的公司,我们就可以构建这些算法,运行它们,看看整体效果如何。我们的首要目标是,我们可以在内存存储中做什么以缩短解决方案的时间?我们总是可以建立更高的带宽,但那不一定能让你达到目的。有什么可以做的,例如散射张量阵列(scatter tensor arrays)?如果我们可以建立一个可以引入矩阵的缓冲区,并且让我们能够一口气将矩阵转移过来,而不只是随便找东西去寻找,这可能会有很大的好处。最终,我们还要看到的是-其中大多数是乘法和累加架构,非常简单。它们只是被复制了数千次。实际上,一旦晶体管变得更好一点,您就可以建立一个相当好的乘法并在存储设备中进行累加。最终,您能否采用该架构,然后将其放入存储设备本身?这是长远的愿景。我想做的是,无论我们做什么,我们都要建立一个编程基础设施和一个范例,这样人们就不必每次迁移时都重写他们的代码。在我看来,这就是英特尔的巨大成功。当我们做386的时候,还没有32位的软件。但它确实能很好地运行16位代码。人们买它就是为了这个。你有很多平台,然后人们说,“好吧,现在我们去优化32位。“486在六到八年后问世时,就有软件可以利用它,它变成了一台永不回头的机器。从内存开始,首先是存储,我们能做什么。然后我们就会看到,随着时间的推移,什么可以真正迁移。答案可能是什么都不是。答案可能是一切。我想是在中间的某个地方。这取决于你把“针”移到哪里。VentureBeat:您门已经和Fwdnxt携手。他们能统共一个相当全面的作品,那么您还需要找到很多合作伙伴吗?Pawlowski:我们将需要大量的合作伙伴和数据科学家。Fwdnxt拥有一批已经开发了五年,十年,十二年,具备资深推理引擎架构经验的人。同时他们也有不同公司和不同的学术背景。创建它的人是普渡大学的教授。他们一直在优化该架构。他们有一个相当不错的编译器,可以使用Open Network Exchange前端,然后将其映射到其硬件。后面我需要的是数据科学家,我需要应用。我还认为我们将需要动态的运行时/调度程序(runtime/scheduler)。如果您真的有这样的模型——如果今天我在硬件上,在Intel处理器上写了一个网络,那么三年以后,您仍然可以运行相同的程序。这一切都是通过指令集来抽象的。我在这里要做的是抽象网络,这意味着我们将需要某种类型的动态运行时。这就是说,“好吧,这东西有8,000个乘法和累加单元。这有1,000个。我可以把那东西扩散一点。或者说,哦,这150个单元死亡(die)了。我不想在上面安排任何东西,但我仍然希望能够使用该部件。”有一些实体正在研究解决动态运行时(dynamic runtime )问题,我认为这将非常重要。特别是。我曾经从一个在Intel负责Litho的人那里听到,他们相信当达到5nm以下时,他们认为30%的设备在制造时将会超出规格。VentureBeat:这是否意味着和Intel和Nvidia有更多的竞争?Pawlowski:其实是将有更加合作。任何人在数据中心很难与英特尔和英伟达竞争。Nvidia的训练时长也已经坐稳。即使人们提出了很多新的解决方案。但不止一家初创公司告诉过我,哪些做超大规模训练的人告诉他们:“将我们的训练算法从GPU移出是如此困难。他们也做得很好了,但他们仍然在给我们带来性能提升。所以不要再花时间做这样的事了。”而且,我听到的最后一个,我听到的最后一个统计数据是,推理的很大一部分仍在至强处理器上进行。我们一直在聚焦,如果我们要在数据中心中做任何事情,这将为Nvidia和Intel之类的客户提供帮助。但是,如果从内存存储的角度来看有可能发生任何创新,那么让我们从边缘进行研究。这就是我们将获得最大效率和规模经济的地方。VentureBeat:摩尔定律部分还好吗?你按计划吗?Pawlowski:这是一个挑战,但这并没有阻止我们继续微缩。老实说,我必须永远保持摩尔定律。您不可对摩尔定律说不好!因为那是第十一条诫命。当人们问我的时候,正是Dennard缩放的缓慢和停止才真正推动了创新。现在,我们可能不会每两年获得两倍的晶体管增加。时间也许会增加到每三四年一次。但是,我们将在第三维度入手。所以这并没有阻止我们。问题的关键是什么才是最经济的方法。而工程师正在寻找解决难题解决方案。