上市刚刚半个月，摩尔线程放出大招：大量新品在路上

2025-12-23 来源：EEWorld

“如今在高端AI领域布满了‘技术封锁’的沟壑。过去我们谈论AI，是学术前沿；今天，我们谈论主权AI，是国家命题。芯片做出来固然重要，但让足够多的开发者愿意在上面写代码，才是生态成功的根本。我们要实现从‘能用’到‘好用’，最终到‘愿意用’的转变。”中国工程院院士郑纬民在摩尔线程首届MUSA开发者大会（MDC 2025）上说道。

当下，随着国产GPU公司接连上市，AI芯片领域热度空前高涨，这些公司都在朝向“愿意用”这样的目标进发。

在摩尔线程上市半个月后，这家公司马上放出大招，公布了大量的技术和进展，包括：全新架构“花港”，基于该架构的“华山”“庐山”GPU芯片，智能SoC芯片“长江”，以及夸娥万卡智算集群和AI算力本MTT AIBOOK等。

MUSA架构：摩尔线程的技术内核

摩尔线程创始人、董事长兼CEO张建中强调：“从第一颗晶体管到C919大飞机，再到量子计算机，历史的脉络清晰指向一个结论：关键领域的突破，必须依靠自主创新。而今天，这个关键领域，就是算力。”

构建强大的算力，GPU无疑是其中最重要的一环。张建中认为，全功能GPU是当下的刚需，因为未来的智能，是融合的智能。无论是构建感知物理规律的世界模型，还是训练与现实交互的具身智能，亦或是探索前沿的量子计算，都需要一颗能同时驾驭AI计算、3D渲染、科学仿真的“大脑”。这不再是一个选择题，而是面向AI未来的必答题，摩尔线程正在向这方面努力建设中。

要理解摩尔线程的核心技术路径，首先必须认识其基石——MUSA架构。MUSA，即元计算统一系统架构（Meta computing Unified System Architecture），它是一个涵盖从底层硬件到顶层应用的全生态系统。可以将其想象为一个层次分明的技术金字塔：

第一层，全功能GPU（Universal GPU）是MUSA的硬件底座。其“全功能”与“通用”的特性，意味着它被设计为能够处理来自不同行业、不同精度要求、不同类型与格式的海量数据。

在GPU芯片内部，集成了四大核心计算引擎（AI、3D图形、科学计算、超高清编解码），为上层多样化应用场景提供统一的强大算力基础。在此之上，硬件系统可灵活扩展，构成名为KUAE（夸娥）的智算集群，规模可从小型设备一直延伸至万卡、十万卡乃至更庞大的超算系统。

第二层，硬件基础上完整的MUSA全栈软件体系。这不仅仅是驱动和运行时环境，更是一整套为开发者精心打造的“工具箱”，包括各类加速库、调试工具、应用示例和开发套件。

本次大会隆重宣布的MUSA 5.0，标志着该软件栈的一次全面进化。它能在四大计算引擎的基础上，无缝覆盖当前几乎所有的用户场景，并完美支持从云到边的全系列产品。其突出优势在于双生态兼容：既支持国际通用的CPU系统与开发生态，也全面适配国产CPU、操作系统及本土开发环境，真正实现了AI、3D图形与科学计算应用的广泛支撑。

在AI领域，MUSA 5.0带来了显著突破。一是编程模型多样化，在兼容主流生态的同时，原生支持国产AI框架，并与顶尖研究机构合作，融入前沿开源项目；二是极致性能优化，通过芯片设计与软件协同，将关键算子（如GEMM）的计算效率提升至98%，通信效率达到97%，极大释放硬件潜力；三是工具与开源共享，将常用的核心数学库、高性能通信库（MT CCRL）、以及集群管理工具等关键软件层对开发者开源，降低使用门槛，赋能开发者更高效地构建自己的训练与推理平台。

第三层，为了满足高端开发者深度挖掘硬件性能的需求，摩尔线程即将释放更底层的强大工具。

一是MTX（汇编级指令集），让专业开发者能够进行极精细的硬件资源操控，实现性能调优的终极控制；二是Moore Lang（专用编程语言），针对“3D图形+AI”这一融合计算场景创新设计，旨在让开发者能用一套简洁的指令集同时驾驭两类任务，大幅提升开发效率；三是MUSA Q，专为量子-经典混合计算设计的框架，旨在赋能这一新兴计算范式；四是计算光刻加速，与国内芯片制造厂合作，利用GPU加速关键的光学邻近效应修正（OPC）计算，有望将耗时数月的流程缩短至数周，直接助力国产先进工艺的研发与生产。所有这些强大的新功能，都将在不久的将来提供给开发者使用。

”MUSA架构的核心精神是一个持续迭代、不断进化的生命体，其最终目标，是成为开发者手中最得心应手的利器，共同开拓计算的无限边疆。”张建中说道。

“花港”架构：明年更新迭代的重点

自2020年起，摩尔线程按“一年一代架构”的节奏迭代：

2022年推出第一代架构“苏堤”，其代表产品S10首次在信创PC领域实现了GPU的国产化替代；
2023年推出春晓”架构，代表产品S80作为国内首款面向消费级的游戏显卡，让中国玩家第一次能够在零售市场购买并使用国产GPU体验游戏，另一款产品S3000标志着摩尔线程进军云端市场；
2024年推出“曲院”架构，代表产品 S4000被定义为公司首款“训推一体”的AI计算卡，基于S4000摩尔线程在当年成功构建了首个千卡规模的AI智算集群意味着国产算力正式具备了为市场提供大规模大模型训练和推理服务的能力，从单卡产品迈入了集群化服务的新阶段；
2025年推出“平湖”架构，代表产品S5000支撑了公司首个万卡级超大智算集群的建设，意味着国产算力平台已经能够承载万亿参数级别的超大模型训练任务，从千卡到万卡，不仅仅是数量的增加，更是对互联技术、系统稳定性、工程能力和软件栈协同的极限考验，标志着摩尔线程的解决方案正式进入超大规模AI基础设施的竞技场。

从解决PC国产化的“苏堤”，到触及消费和云端的“春晓”，再到发力AI计算的“曲院”，直至攻坚超大规模集群的“平湖”，摩尔线程的每一代架构都精准地踏在了市场需求与技术演进的关键节点上。

从第一代苏堤架构的S10，到平湖架构的S5000，其AI训练算力提升了约1000倍。那么，2026年摩尔线程的重点是什么？张建中表示，那就是“花港“架构。

“花港”是一套全新设计的指令集，能在同等工艺条件下，将芯片的算力密度提升50%。更重要的是，通过对架构的极致打磨，实现了能效比超过10倍的提升。这意味着，在相同的功耗墙内，“花港”能够释放出远超以往的澎湃算力，这是支撑未来大模型训练与推理持续进化的关键。

“花港”集成了多项颠覆性创新：

全精度计算引擎：全面优化了对FP8、FP6、FP4等低精度数据格式的支持，这些是未来高效AI计算的基石，能大幅提升能效与吞吐量；
超大规模集群就绪：“花港”架构原生支持十万卡级别的超大规模智算集群互联，这并非简单的数量叠加，而是从芯片层面为构建下一代“AI超级工厂”做好了顶层设计；
异步编程模型：创新性地引入了新一代异步编程模型，它能像一位智能调度官，确保芯片内成千上万个计算核心始终处于高效工作状态，杜绝算力闲置，极大提升资源利用率；
AI原生渲染架构：在图形领域，“花港”带来了革命性的AI增强渲染架构（AGP），深度整合AI技术，重构了图形流水线，同时，第二代硬件光线追踪引擎的性能较“平湖”架构提升了5至6倍，并完全支持DirectX 12 Ultimate，让开发者能够创造电影级的实时图形体验；
硬件级安全堡垒：安全是算力的生命线。“花港”首次在GPU架构中系统性地构建了四层硬件安全防护体系（安全域、信任域、保护域、功能域），从芯片底层为国密及商密算法提供强力支持，为数据中心和训练场的安全保驾护航。

这些创新并非空中楼阁，它们背后是摩尔线程五年来积累的超过500项自主知识产权专利，覆盖从芯片设计到集群通信的方方面面，构成了我们参与国际竞争的坚实护城河。

基于”花港“的芯片产品：“华山”“庐山” “长江”

基于“花港”架构，摩尔线程即将推出大量全新产品。

第一，颗面向超大规模AI训练与推理，并融合超级计算能力的超智融合芯片“华山”。其在核心的浮点计算能力上已明确对标国际顶尖水准。但真正的卓越之处，远不止于峰值算力，而在于一套深思熟虑的系统性平衡设计。

“华山”拥有与国际一流产品媲美的海量存储带宽与容量。互联层面，不仅搭载自研的MT-Link 4.0高速互联技术，更创新性地兼容多种主流高速网络协议，使其能无缝融入各类现有数据中心生态，并支撑起单超节点1024颗GPU的庞大协同体。可靠性层面，芯片内置的RAS 2.0与ACE 2.0技术，如同精密的自我修复与调度中枢，能实现错误自检、故障隔离及计算通信的完全并行，构成了万卡级集群坚如磐石的运行基石。

值得一提的是，“华山”的灵魂，在于一系列让硬件彻底“苏醒”的智能设计。智能异步调度系统能像一位高明的指挥官，将任务完美均衡地分配给每一个计算单元，近乎根除算力闲置。创新性的 “TCE Pair”张量核心通过双核共享数据，将关键算子的执行效率提升数倍，极大减少了数据搬运的损耗。此外，“华山”将大语言模型的核心计算路径深度硬化为专用加速引擎，这意味着开发者的模型代码能获得芯片级的原生加速，实现从指令到结果的极致效率。

第二，为专业图形计算而生的新一代GPU“庐山”。相比S80，“庐山”整体性能拥有15被提升；基于AI原生图形架构AGR架构，“庐山”的原生AI算力提升了64倍；专业图形领域至关重要的几何处理能力上“庐山”提升16倍；纹理填充速度提升4倍，硬件光线追踪性能提升50倍，原子操作性能提升8倍，并配备了4倍于S80的显存容量。

这意味着，“庐山”不仅是一张强大的游戏显卡，更是能够从容驾驭高端CAD、CAE、建筑设计与数字内容创作等专业工作负载的强力工具。为实现如此极致的性能，“庐山”在架构层面实现了两大突破：

统一任务引擎：摩尔线程彻底重构了传统的渲染流水线，创新性地引入了统一任务引擎。它能够智能地将图形任务动态分解并均衡分配到所有计算单元上，实现了前所未有的负载平衡与并行效率，让GPU的每一个核心都时刻保持高效工作。

全硬件光线追踪：在“花港”架构的加持下，“庐山”实现了从底层开始的全硬件光线追踪加速。与S80的软件方案相比，其光线追踪性能实现了高达50倍的飞跃，让实时电影级的光影效果成为可能。

第三，针对具身智能的“长江”超级AI SoC。张建中介绍，要让智能体真正“具身”，不仅需要云端的训练场，更需要终端的“大脑”与“小脑”。“长江”在一颗芯片中集成了CPU、GPU、NPU、VPU等几乎所有关键处理单元，是一个高度集成、高效灵活的端侧算力中枢。

基于“长江”SoC，摩尔线程打造了MTTE 300边缘计算模组，并最终构建了完整的MT Robot端云一体解决方案。这套方案实现了完美的协同：端侧“长江”SoC与MTTE 300模组作为智能体的“小脑”，处理实时感知、局部决策与敏捷响应；云端夸娥智算集群作为“大脑”，负责复杂的模型训练、大规模仿真和全局优化；全栈软件支持机器人操作系统，覆盖运动控制、导航、操作等所有核心功能。

值得一提的是，面向具身智能的仿真训练平台MT Lambda也一并被公布。它整合了摩尔线程在图形渲染、物理仿真与AI计算三大领域的核心引擎，旨在构建一个高保真、可交互的虚拟训练场。

平台内置自研的高性能物理仿真引擎Alpha Core，同时开放兼容Mujoco等主流开源引擎，给予开发者最大灵活性。利用自研的3D高斯泼溅技术，平台能够从真实场景视频快速构建高精度世界模型，极大解决了机器人训练中真实数据采集难、成本高的核心痛点。我们的相关技术已在国际图形学顶会获得奖项。通过Photon光子引擎等底层优化，将仿真计算的性能相比传统CPU方案提升达30倍，让大规模并行仿真成为可能。

基于“长江“SoC，摩尔线程还推出MTT AI Book，装在背包里的个人AI超级计算机，它是全球首款AI算力本。

预置了完整的开发工具链、深度学习框架、容器环境及云端协同套件，开机即可投入AI开发与智能体创建；原生支持自研的AI OS，并可无缝运行Windows虚拟机、Android容器及主流国产操作系统，适应任何开发场景；内置了开源的2D/3D数字人“小麦”框架，展示了自然语言交互的未来。开发者可在此基础上自由创造各类数字人应用；当本地算力不足时，可一键调用夸娥云端超算集群，实现真正的“云边端”一体开发。

AI Book现已开启预售，即将正式供货。它旨在成为每一个开发者探索AI无限可能的随身利器。

夸娥：让国产算力驱动千行百业

如果说芯片与架构是点，那么智算集群就是将点连成线、最终构成面的系统级能力。摩尔线程的集群解决方案名为夸娥，它清晰地描绘出一条从千卡、万卡，迈向十万卡乃至更大规模的发展路线。会议上，张建中正式发布并展示了已投入使用的“夸娥万卡智算集群”。

这个集群并非概念的渲染，而是由真实的模块化硬件构成。它具备八大核心优势：提供10 Exaflops级别的强大算力；得益于S5000芯片的精心设计，在大模型训练中能提供卓越的累计精度保障，从而提升最终模型效果；实现了超过60%的模型浮点运算利用率和高达95%的线性扩展效率；全面支持从语言、视觉到多模态的各种模型；同时，在训练和推理的综合性价比上具有显著优势。

然而，构建如此规模的集群面临指数级增长的工程挑战：散热、存储、通信稳定性摩尔线程通过分层软硬件协同的夸娥架构逐一攻克。从底层的液冷硬件保障，到软件层的高性能算子、智能并行策略工具、全栈监控系统，再到可在线热修复异常的集群守护软件，这套体系将大规模训练的成功率提升了约30%。

实践是检验算力的唯一标准。摩尔线程以DeepSeek V3等先进MoE模型进行了实测。在相同数据和模型下，使用FP8精度在夸娥集群上训练得到的模型，其损失曲线与国际主流平台完全一致，而在最终MMLU评测中，效果甚至更优。这有力地证明了，基于国产算力不仅能成功训练大模型，更能取得顶尖效果。

推理的核心挑战在于成本与延迟。为此，摩尔线程发布了全套大模型推理套件，包含自研的MT Transformer引擎及对众多主流开源引擎的优化支持。实测表明，在文生文场景中，S5000的单卡推理速度可达竞品的2.5倍；在文生视频场景中，其性能也可达到国际旗舰产品的70%-80%水平。与合作伙伴硅基流动的协作案例显示，基于原生FP8优化，单卡即可实现每秒4000 Token的预填充和1000 Token的解码吞吐量。

为进一步提升效率，摩尔线程还发布了MTT C256超节点解决方案。通过高速互联，它能将训练效率提升30%-60%，在追求极致吞吐的推理场景下，更能带来3-6倍的性能飞跃。

“国产算力的价值，最终要落在支撑国家战略与产业升级上。我们正积极将夸娥集群和全功能GPU的能力，注入到更广泛的科研与产业场景中。”张建中表示，在AI for Science领域，基于MUSA平台深度优化的特定算法，性能可达国际通用平台的7~8倍。我们正全力支持蛋白质结构预测等前沿研究；摩尔线程与玻色量子等伙伴合作，探索量子-经典混合计算范式，旨在解决生成式模型等任务中的算力瓶颈；此外，与产业伙伴合作，为6G通信、材料科学、精准医疗等领域提供AI加速基础设施。

“我们坚信，一个繁荣的国产计算生态，需要全社会的开发者共同构建。摩尔线程愿提供从强大芯片、高效集群到开放软件的全栈支持，与每一位开发者并肩，让国产算力真正成为驱动中国科技自立自强与产业创新的核心引擎。”张建中说道。

One more thing：一个生态的建设

摩尔线程特别强调生态建设和人才培养上。为此，摩尔线程发布了摩尔学院与开发者生态。目标是围绕MUSA生态，培育百万级的开发者，覆盖从学生、个人极客到企业专家和科学家的全谱系。

摩尔线程构建了线上线下联动的立体赋能网络：通过在线课程与四大线下培训基地，已累计服务超20万开发者；与清华、北大等顶尖高校深度合作，将MUSA开发体系融入教学，覆盖全国200余所高校、超10万名学生；在北京设立MUSA生态中心，一站式打通从学习、实习到就业创业的全链路。同时，推出四大分层计划——“星火未来”助初学者入门，“启航大赛”以赛促学，“精英开发者计划”支持项目攻关，“灯塔科学家计划”为前沿科研破除算力瓶颈，精准赋能从学生到科学家的全谱系创新人才。