上海强攻算力高地，打响大模型商用基建第一枪

QbitAI

2023-06-05

阅读数：

金磊发自凹非寺
量子位 | 公众号 QbitAI

剑指大算力，上海有了新动作——

正式成立临港新片区智能算力产业联盟（下文简称联盟）。

这就是在由上海临港新片区管理委员会主办的“临港新片区智算大会”上所公布的最新消息。

整体来看，联盟的构成围绕着一条“链”而展开：临港新片区智算产业链。

顾名思义，这条“链”上的企业均是与智算产业息息相关的单位。

至于链主企业，在本次大会中也已经被上海临港新片区管理委员确定——商汤科技。

△商汤科技董事长兼CEO，徐立

而除了这条“链”上的企业之外，联盟还涵盖了智算产业上下游行业翘楚，以及知名高校及科研院所等。

那么这个联盟的成立，到底要做什么？根据官方回答：

汇聚各方资源共建开放、完善的AI基础设施服务体系，为加速应用落地提供强大易用的智算底层支撑，助力构筑上海人工智能发展新高地。

一言蔽之，就是落地，落地，落地；并以此来推动商业的大变革。

变革之道：大算力+大模型

自从去年11月ChatGPT爆火以来，生成式AI在全球范围内受到了高度的关注。

与此同时，同样热度不减的一个概念，便是“大模型”。

从整个业界目前的趋势来看，各家科技巨头乃至中小企业，都是在大模型身上发力，不断突破参数量的极限。

例如OpenAI的GPT-3参数量是1750亿，而据传言，GPT-4的参数量已经突破了惊人的万亿。

之所以如此，正是应了那句“大力出奇迹”——参数量越大，训练出来的模型效果一般都会更好。

而如此量变引发质变的背后，还有一大关键因素，那便是大算力。

毕竟单是训练一个GPT-3，便是要用10000张V100卡，训练个整整近15天，消耗了大约600PFLOPS的算力。

因此，在这种大背景之下，商汤针对临港新片区智算产业链所要实现的变革，提出了一条道路——

大模型+大算力。

在商汤看来，AGI时代之下，数据、算法和算力三要素有了新的需求：

计算量（GPU数量 x 运行时间 x 并行效率）= 模型参数量 x 处理数据量。

怎么理解？

模型参数量要足够多，才能实现AI智慧的涌现，而这也带来了对算力的剧增，需要更高的并行效率，才能有效支持大参数模型训练。

数据方面，高质量自然语言数据逐渐稀缺，而视觉数据相较自然语言在数量、质量、容纳信息等方面有多种优势，能够使得AI更好地理解世界。

变革之道是提出来了，那又取得了怎样的效果？

在现场，商汤联合创始人杨帆便介绍道：

对临港实景进行大规模三维场景重建这种任务，在“大模型+大算力”的加持之下，数小时就可以完成以往人工数周乃至数月才能完成的高精渲染工作。

再如在气象气候预报任务中，全球中期天气预报是最重要的预测任务之一。

今年4月亮相的全球中期气象预报AI大模型“风乌”，首次实现在高分辨率上对核心大气变量进行超过10天的有效预报，且在80%的评估指标上超越GraphCast模型。

不仅如此，“风乌”还可以模拟台风等极端气象，准确预测台风轨迹。

遥感AI大模型方面，商汤以通用视觉大模型为基础，具有不同地物种类、影像类型、影像时间和谱段的高泛化能力，拥有先进的地物解译能力和媲美人工标注的生成式图斑效果。

再如自动驾驶方面，商汤提出的UniAD是业内首个感知决策一体化的端到端自动驾驶解决方案，将环视的图片通过Transformer映射得到BEV的特征，同时进行目标跟踪，在线建图，目标轨迹预测，以及障碍物预测。

甚至在游戏领域，商汤在近日还联合清华提出通才AI智能体GITM，能够在紧密模拟真实世界的畅销游戏《我的世界》中做到像人类一样生存、探索和创造。

并在主世界所有技术挑战上实现了100%的任务覆盖率。

不仅是在各种领域量的积累，商汤自身在大模型的发展也是堪称飞速。

例如今年3月开源的“书生2.5”多模态大模型在检测、分割、分类三大主流视觉任务下二十多个权威数据集上全面领先。

这也为上述自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。

而在最新的发布中，商汤凭借“日日新”大模型体系，一口气涵盖AI内容创作、AI数字人视频生成和3D内容生成等。

而这些大模型所要发力之处，正是诸如医疗、短视频、教育、营销以及开发等产业领域。

……

不难看出，商汤的大模型已然是覆盖了产业中方方面面。

据杨帆介绍，截至今年5月，商汤“大模型+大算力”的方式，已经涵盖智能驾驶、生物制药、芯片设计、智慧商业、高校科研等前沿领域，并已在超过20个落地场景中实现大模型交付。

不仅如此，本次大会上，商汤还与中国信息通信研究院联合预发布《新型AI智算基础设施白皮书》，将从多个层面解析新型AI基础设施的发展特征和建设需求，以适应生产范式的重大转变，支撑AI发展进入2.0阶段。

为什么要采取这种模式？

若是将人工智能的发展历史铺开来看，就不难理解商汤如此之举的原因了。

因为整个人工智能的技术迭代进步的历史，其实就是对暴力美学的追求，以及算法、算力、数据三要素由量变产生质变的技术迭代过程。

但这种暴力美学并不意味着拥有更多的资源、算力、数据，就一定能让智能得到飞跃；更准确的来讲，它只是一个必要而非充分的条件。

对此，杨帆认为：

真正支撑暴力美学背后产生重大的技术创新和成果的，恰恰是在每一个环节的一些持续性的优化和改进。

一言蔽之，大力出奇迹的背后，是通过人工智能三要素的持续规模上升带来的技术价值的提升。

而且这三要素很多时候是联合调优的，算法的优化、数据的整理和选取，以及算力的平台性，这三者间往往是互相连通的，很难把它变成割裂的环节独自去做。

这也同样解释了为什么要成立智能算力产业链的原因：

只有链上的更多企业，通过促进彼此的交流合作思考，更深度的进行合作，我们才能够在新的关键性的重大技术浪潮中，做到更好的技术进步和支持。

而在如此新一轮技术的大浪潮之中，我们还需要有一个认知上的变化，那便是“新二八定律”。

在旧二八定律中，对于业务的开发逻辑，是20%由AI模型处理，80%的压力给到了人类开发者这边。

而在未来的大模型时代，80%的任务应当由AI大模型来完成，人类只需要负责20%的提示工程等。

所有行业从业者，不管是应用的开发者，还是技术的工程师，未来可能更大的精力是需要跟大模型对话。

最后，说到关键的持续发力，商汤多年来亦是如此。

无论是新出的日日新大模型，还是商汤AI大装置SenseCore，都不是一蹴而就的事情。

例如早在五年前，商汤便已经在大模型领域着手研发。

并且在2019年，商汤便使用上千张GPU进行单任务训练，推出了10亿参数规模的视觉模型，并实现了当时业界最好的算法效果。

后来在2021年到2022年期间，商汤训练并开源了30亿参数的多模态大模型——书生。

就目前来看，商汤已经成功研发了320亿参数量的全球最大的通用视觉模型；并且已经打造了CV、NLP和AIGC相关大模型。

所以，它是通过一步一步的“小作业”，才有了如今的这份“大作业”。

再如算力方面，商汤在2022年1月便首付56亿元，启动运营亚洲最大的AI超算中心之一的人工智能计算中心（AIDC）。

时隔一年，现如今，这个算力数字已然是翻了个小翻，达到了5000PFLOPS！

它可以以最大3200卡规模集群进行单任务训练，并可做到七天以上不间断的稳定训练。

总而言之，商汤可以说是用“大模型+大算力”的方式，在自身做了多年的试验，也取得了一定的成绩。

因此，面对加速智能产业落地这样的任务，这种模式可以说是正解之一。

至于未来会取得怎样的效果，是值得期待了。

— 完 —

点这里

最新有关QbitAI量子位的文章

■最后一周！2024人工智能年度评选，AI时代的行业先锋就等你来

■多模态模型免微调接入互联网，即插即用新框架，效果超闭源商用方案

■空间智能版ImageNet来了！李飞飞吴佳俊团队出品

■AI毒液刷屏抖音小红书！闲鱼10元代生成一次，但官网其实免费

■清华厦大等提出“无限长上下文”技术，100万大海捞针全绿，Llama\Qwen\MiniCPM都能上分

■全球首个法律o1大模型发布，System2范式下慢思考法律专家｜港科大&北大

■最后两周！2024人工智能年度评选，AI时代的行业先锋就等你来

■评估大模型不看输出看「内在」，上交大新测试指标入选NeurIPS 2024

■一个弹窗整懵Claude，瞬间玩不转电脑了 | 斯坦福&港大新研究

■AI蛋白质诺奖后再登Nature，第一性原理级精度，微软亚研院4年之作

展开↓

上海强攻算力高地，打响大模型商用基建第一枪

金磊 发自 凹非寺量子位 | 公众号 QbitAI

△商汤科技董事长兼CEO，徐立

变革之道：大算力+大模型

为什么要采取这种模式？

金磊发自凹非寺
量子位 | 公众号 QbitAI