端侧AI爆发前夜，安谋科技Arm China的“周易”X3 NPU如何扛起算力大旗？

2025-11-25 来源：EEWorld

今年，随着DeepSeek横空出世，端侧AI大模型市场彻底被带火了，越来越多人的目光从云走向了端。如果要问为什么端侧AI会是未来，可以用《韩非子·说林上》中的一句话来解释：“失火而取水于海，海水虽多，火必不灭矣，远水不救近火也。”云端AI相当于是大海，虽然水多、能力强，但当面对特殊的场景，终究是不如端侧AI的近水。

据预测，到2028年，用于端侧微调卡和推理卡的销售额将超过用于云侧的训练卡。此外，端侧AI还能减轻云端服务器的计算负担，降低对中心化计算资源的依赖，从而降低成本。

对端侧AI来说，什么最重要？那一定是NPU。到了大模型时代，甚至可以说还没有在自己的芯片中布局NPU的厂商已经开始落后了。日前，安谋科技Arm China便发布了全新的NPU IP——“周易”X3。安谋科技未来如何应对快速发展的AI浪潮，新产品又有什么亮点？众媒体与EEWorld一起与安谋科技专家进行了对话。

六代落地的进阶之路

今年2月，自从陈锋出任安谋科技CEO后，便提出“AI Arm China”的公司战略发展方向，为AI时代安谋科技发展指明了前路。NPU无疑是这一战略的有效着力点，毕竟NPU本就为AI而生，能够降低部分易编程性以实现更高的峰值性能、能效和面积效率，从而运行机器学习所需的大量乘法、加法和其他运算。

“周易”系列NPU是安谋科技Arm China始于2018年，是国内最早布局该领域的团队之一。NPU一直是安谋科技的核心战略产品，研发和支持100%由本土团队完成，目前已成功交付并在终端落地。

2018年发布“周易”第一代产品Z1，紧接着在2020年迭代到“周易”Z2。转折点在2022年，这一年不仅发布了全新“的周易”Z3，“周易”还开辟了X1的产品系列，不仅在性能上达到了更高级别，同时开始支持CNN+Transformer。2023年，“周易”X2面世，应用在AIPC、平板电脑等领域场景。

回顾过去7年时间，安谋科技“扎根本土”的战略，让“周易”系列从Z1到X2的五代产品，始终紧贴国内客户的核心痛点，“周期长、投入大、风险高、生态难”，赋能端侧的高性能AI计算。

时间回到现在，2025年11月13日，“周易”X3正式揭开了它的面纱，早在几个月前安谋科技就曾预告过这款产品定位与此前产品的不同——专为大模型而生。

10倍提升的“性能猛兽”

如果说前几代产品是夯实基础，那么“周易”X3 NPU就是为端侧大模型时代量身定制的“性能猛兽”。其核心突破，来自架构层面的全面升级。

X3 NPU采用DSP+DSA异构架构，即“通用+专用”融合架构，并在业界率先完成从传统定点计算（TOPS）到浮点计算（FLOPS）的跨越，单Cluster算力达到8~80 TFLOPS。

安谋科技产品总监鲍敏祺向EEWorld解释，之所以选择DSP+DSA架构，是因为纯DSA架构面对算法变化灵活性不足，而DSP+DSA融合架构可覆盖20% AI通用型计算需求，避免核心算力卡在非优化算子上，同时降低主CPU资源消耗。

访存方面，X3 NPU通过Fabric Network连接到L2 Memory，并与DRAM进行数据交互。全新的L2 Memory设计，有效减少DDR内存占用，提高多核性能线性度，仅重数据无损压缩。单Core带宽飙升至256 GB/s，满足大模型解码阶段的高吞吐需求，要知道，带宽直接决定大模型的响应速度，毕竟再快的算力没有带宽支撑便毫无意义。

“我们整个产品的设计，最重要的就是我要做数据的本地化。”安谋科技高级产品经理叶斌解释道，X3 NPU通过 L1、L2、L3 多级存储分层设计，减少数据迁移功耗，提升能效，优化实现带宽与算力的平衡。

市场方面，X3 NPU核心目标场景优先覆盖智能汽车（智能驾驶、座舱）、移动终端（AI PC、手机）、AI加速卡、智能物联网（工业中控、机器人）四大领域。尤其关注机器人领域，可通过多Cluster扩展达到数百T级算力。

大模型能力“史诗级”加强

大模型无疑是X3 NPU的重点，这一代对于大模型的优化非常之多：

不仅支持INT8/INT16/FP8/FP16/BF16等端侧主流精度，还支持端侧AI运行必备的W4A8和W4A16；
原生支持LLM/VLM/MoE等海量端侧大模型，支持160+算子、270+模型；
支持Softmax、Layernorm等操作，通用的向量计算能力（TEC）和专用的向量加速能力（AIFF）相结合，实现了10倍Softmax提升和高效的算子融合与加速；
支持自定义运算单元，灵活应对算法非线性函数的变化；
支持多种量化算法，包括Per-tensor/Per-channel、Symmetric/Asymmetric、GPTQ、AWQ、2bit llama2等，实现更低的内存需求和功耗，提升计算效率；
支持自定义超越函数，具备完备精度验证流程，确保算法实现正确性；
硬件级多任务QoS调度，保证大模型并行推理时的高确定性、低延迟；
硬件支持高低优先级切换调度，用户可自定义切换时间，实际硬件开销小于3us。

不光是大模型，X3 NPU也提供更多CNN模型优化支持，比如Mobilenet-v2、Squeezenet、Resnet-v2-101、Densenet-169等。

模型适配能力更是X3 NPU的“王牌”。X3 NPU已验证270+主流大模型，包括通义千问、Meta LLAMA 等，AIGC能力较上一代提升10倍。在LLAMA2 7B硬件平台上的实测数据显示，其prefill 72%算力利用率，decoder在使能WDC下>100%带宽利用率，性能表现远超行业平均水平。

不断完善的生态

端侧AI的竞争，从来不只是硬件算力的比拼，生态的完善度直接决定产品的落地速度。安谋科技显然深谙此道，为X3 NPU打造了“全栈式端到端”支持体系。

软件层面，“周易”Compass AI软件平台是端到端的软件栈，采用高效的DSL编程语言、友好的用户界面，支持全系列“周易”NPU，支持主流OS及AI框架，提供丰富的量化算法、算子及网络。提供开箱即用的Model Zoo、算子级用户自定义优化接口和高效动态Shape支持，支持动态Shape，减少无效计算，提升计算效率。资源管理基于核粒度的内存分配，支持多任务并行。

编译器层面，NN编译器进一步优化，提供高效的图优化，提升计算效率，减少访问带宽。灵活适配不同硬件，充分释放算力资源，极致优化存储资源。

“易用”无疑是X3 NPU的关键词。开发者不仅能实现Hugging Face模型一键部署，还能借助内置的量化算法和数据、张量、模型并行优化方式，同时支持多种AI应用和算法，快速完成性能调优。针对差异化需求，开放的软件接口允许自定义算子开发调试，帮助客户打造独特竞争力。支持通过AIPULLM导入模型，生成可执行文件，并在模拟器或硬件上部署。工具链支持中间IR结果可视化，方便开发者调试精度与性能。

工具碎片化无疑是当前端侧AI开发的一大难题，鲍敏祺对此解释，安谋科技通过DSL实现底层硬件统一，兼容PyTorch、ONNX、Hugging Face等上层框架，支持模型一键部署，降低跨硬件迁移成本。

目前，X3 NPU已与百家AI芯片伙伴共建生态，批量应用于手机、车规、IoT等终端。从芯片产品、软件算子库，到基础模型、AI应用，安谋科技提供全生命周期的软硬件及售后支持，24小时快速响应、FPGA原型设计支持等服务，彻底解决了客户的后顾之忧。

生态与开放息息相关，鲍敏祺表示，此前X2 NPU时期安谋科技宣布的开放计划仍然在持续推进中，目前安谋科技已开放模型解析器、量化工具等核心模块，是行业内少数开放量化能力的厂商。

安谋科技正在下一盘“大棋”

以《易经》六十四卦命名的“周易”系列，正用技术创新诠释着“变则通”的智慧。从卦象来看，“周易”Z1、Z2、Z3、X1对应“乾”卦，X2对应“坤”卦，X3则对应着“临”卦。从卦象的非线性迭进来看，安谋科技的确在下着一盘大棋。

乾、坤乃天地定位，阴阳肇始，是万物的开端，也是“周易”NPU的开始；而临卦则是在经历繁荣后，提出的治理哲学，意味着对之前所有阶段成果的巩固与维系。“临者，大也”，可见安谋科技明白一个深刻的道理：真正的伟大来自责任、格局、德行、境界之“大”，只有不断巩固自己，继续精进才能走向更“大”的未来。

从2018年的本土自研探路，到X3 NPU成为端侧大模型的通用算力底座，安谋科技的进阶之路，也是国内NPU产业从追赶到领跑的缩影。随着2025年X3 NPU的正式发布，它将继续串起芯片设计、算法开发与终端应用的全产业链，为端侧AI大模型的普及提供更坚实的支撑。

而展望未来，安谋科技也将在NPU产品上持续布局，围绕计算架构、计算扩展能力、软件使用界面、通用计算能力和生态与合作模式进行演进。

进入半导体设计/制造查看更多内容>>

Arm中国 AI 周易 NPU IP

上一篇:伴芯科技重磅亮相！AI智能体重构EDA，迈向芯片自主设计闭环

下一篇:硅芯科技发布2.5D/3D EDA⁺新范式，重构先进封装协同设计体系

热门新闻