半导体设计/制造
返回首页

端侧AI爆发前夜,安谋科技Arm China的“周易”X3 NPU如何扛起算力大旗?

2025-11-25 来源:EEWorld

今年,随着DeepSeek横空出世,端侧AI大模型市场彻底被带火了,越来越多人的目光从云走向了端。如果要问为什么端侧AI会是未来,可以用《韩非子·说林上》中的一句话来解释:“失火而取水于海,海水虽多,火必不灭矣,远水不救近火也。”云端AI相当于是大海,虽然水多、能力强,但当面对特殊的场景,终究是不如端侧AI的近水。


据预测,到2028年,用于端侧微调卡和推理卡的销售额将超过用于云侧的训练卡。此外,端侧AI还能减轻云端服务器的计算负担,降低对中心化计算资源的依赖,从而降低成本。


对端侧AI来说,什么最重要?那一定是NPU。到了大模型时代,甚至可以说还没有在自己的芯片中布局NPU的厂商已经开始落后了。日前,安谋科技Arm China便发布了全新的NPU IP——“周易”X3。安谋科技未来如何应对快速发展的AI浪潮,新产品又有什么亮点?众媒体与EEWorld一起与安谋科技专家进行了对话。


代落地的进阶之路


今年2月,自从陈锋出任安谋科技CEO后,便提出“AI Arm China”的公司战略发展方向,为AI时代安谋科技发展指明了前路。NPU无疑是这一战略的有效着力点,毕竟NPU本就为AI而生,能够降低部分易编程性以实现更高的峰值性能、能效和面积效率,从而运行机器学习所需的大量乘法、加法和其他运算。


“周易”系列NPU是安谋科技Arm China始于2018年,是国内最早布局该领域的团队之一。NPU一直是安谋科技的核心战略产品,研发和支持100%由本土团队完成,目前已成功交付并在终端落地。


2018年发布“周易”第一代产品Z1,紧接着在2020年迭代到“周易”Z2。转折点在2022年,这一年不仅发布了全新“的周易”Z3,“周易”还开辟了X1的产品系列,不仅在性能上达到了更高级别,同时开始支持CNN+Transformer。2023年,“周易”X2面世,应用在AIPC、平板电脑等领域场景。


回顾过去7年时间,安谋科技“扎根本土”的战略,让“周易”系列从Z1到X2的五代产品,始终紧贴国内客户的核心痛点,“周期长、投入大、风险高、生态难”,赋能端侧的高性能AI计算。


image.png


时间回到现在,2025年11月13日,“周易”X3正式揭开了它的面纱,早在几个月前安谋科技就曾预告过这款产品定位与此前产品的不同——专为大模型而生。


10倍提升的“性能猛兽”


如果说前几代产品是夯实基础,那么“周易”X3 NPU就是为端侧大模型时代量身定制的“性能猛兽”。其核心突破,来自架构层面的全面升级。

X3 NPU采用DSP+DSA异构架构,即“通用+专用”融合架构,并在业界率先完成从传统定点计算(TOPS)到浮点计算(FLOPS)的跨越,单Cluster算力达到8~80 TFLOPS。


安谋科技产品总监鲍敏祺向EEWorld解释,之所以选择DSP+DSA架构,是因为纯DSA架构面对算法变化灵活性不足,而DSP+DSA融合架构可覆盖20% AI通用型计算需求,避免核心算力卡在非优化算子上,同时降低主CPU资源消耗。


image.png


访存方面,X3 NPU通过Fabric Network连接到L2 Memory,并与DRAM进行数据交互。全新的L2 Memory设计,有效减少DDR内存占用,提高多核性能线性度,仅重数据无损压缩。单Core带宽飙升至256 GB/s,满足大模型解码阶段的高吞吐需求,要知道,带宽直接决定大模型的响应速度,毕竟再快的算力没有带宽支撑便毫无意义。


“我们整个产品的设计,最重要的就是我要做数据的本地化。”安谋科技高级产品经理叶斌解释道,X3 NPU通过 L1、L2、L3 多级存储分层设计,减少数据迁移功耗,提升能效,优化实现带宽与算力的平衡。


市场方面,X3 NPU核心目标场景优先覆盖智能汽车(智能驾驶、座舱)、移动终端(AI PC、手机)、AI加速卡、智能物联网(工业中控、机器人)四大领域。尤其关注机器人领域,可通过多Cluster扩展达到数百T级算力。


image.png


大模型能力“史诗级”加强


大模型无疑是X3 NPU的重点,这一代对于大模型的优化非常之多:


  • 不仅支持INT8/INT16/FP8/FP16/BF16等端侧主流精度,还支持端侧AI运行必备的W4A8和W4A16;

  • 原生支持LLM/VLM/MoE等海量端侧大模型,支持160+算子、270+模型;

  • 支持Softmax、Layernorm等操作,通用的向量计算能力(TEC)和专用的向量加速能力(AIFF)相结合,实现了10倍Softmax提升和高效的算子融合与加速;

  • 支持自定义运算单元,灵活应对算法非线性函数的变化;

  • 支持多种量化算法,包括Per-tensor/Per-channel、Symmetric/Asymmetric、GPTQ、AWQ、2bit llama2等,实现更低的内存需求和功耗,提升计算效率;

  • 支持自定义超越函数,具备完备精度验证流程,确保算法实现正确性;

  • 硬件级多任务QoS调度,保证大模型并行推理时的高确定性、低延迟;

  • 硬件支持高低优先级切换调度,用户可自定义切换时间,实际硬件开销小于3us。


不光是大模型,X3 NPU也提供更多CNN模型优化支持,比如Mobilenet-v2、Squeezenet、Resnet-v2-101、Densenet-169等。


模型适配能力更是X3 NPU的“王牌”。X3 NPU已验证270+主流大模型,包括通义千问、Meta LLAMA 等,AIGC能力较上一代提升10倍。在LLAMA2 7B硬件平台上的实测数据显示,其prefill 72%算力利用率,decoder在使能WDC下>100%带宽利用率,性能表现远超行业平均水平。


不断完善的生态


端侧AI的竞争,从来不只是硬件算力的比拼,生态的完善度直接决定产品的落地速度。安谋科技显然深谙此道,为X3 NPU打造了“全栈式端到端”支持体系。


软件层面,“周易”Compass AI软件平台是端到端的软件栈,采用高效的DSL编程语言、友好的用户界面,支持全系列“周易”NPU,支持主流OS及AI框架,提供丰富的量化算法、算子及网络。提供开箱即用的Model Zoo、算子级用户自定义优化接口和高效动态Shape支持,支持动态Shape,减少无效计算,提升计算效率。资源管理基于核粒度的内存分配,支持多任务并行。


编译器层面,NN编译器进一步优化,提供高效的图优化,提升计算效率,减少访问带宽。灵活适配不同硬件,充分释放算力资源,极致优化存储资源。


image.png


“易用”无疑是X3 NPU的关键词。开发者不仅能实现Hugging Face模型一键部署,还能借助内置的量化算法和数据、张量、模型并行优化方式,同时支持多种AI应用和算法,快速完成性能调优。针对差异化需求,开放的软件接口允许自定义算子开发调试,帮助客户打造独特竞争力。支持通过AIPULLM导入模型,生成可执行文件,并在模拟器或硬件上部署。工具链支持中间IR结果可视化,方便开发者调试精度与性能。


工具碎片化无疑是当前端侧AI开发的一大难题,鲍敏祺对此解释,安谋科技通过DSL实现底层硬件统一,兼容PyTorch、ONNX、Hugging Face等上层框架,支持模型一键部署,降低跨硬件迁移成本。


目前,X3 NPU已与百家AI芯片伙伴共建生态,批量应用于手机、车规、IoT等终端。从芯片产品、软件算子库,到基础模型、AI应用,安谋科技提供全生命周期的软硬件及售后支持,24小时快速响应、FPGA原型设计支持等服务,彻底解决了客户的后顾之忧。


生态与开放息息相关,鲍敏祺表示,此前X2 NPU时期安谋科技宣布的开放计划仍然在持续推进中,目前安谋科技已开放模型解析器、量化工具等核心模块,是行业内少数开放量化能力的厂商。


image.png


安谋科技正在下一盘“大棋”


以《易经》六十四卦命名的“周易”系列,正用技术创新诠释着“变则通”的智慧。从卦象来看,“周易”Z1、Z2、Z3、X1对应“乾”卦,X2对应“坤”卦,X3则对应着“临”卦。从卦象的非线性迭进来看,安谋科技的确在下着一盘大棋。


乾、坤乃天地定位,阴阳肇始,是万物的开端,也是“周易”NPU的开始;而临卦则是在经历繁荣后,提出的治理哲学,意味着对之前所有阶段成果的巩固与维系。“临者,大也”,可见安谋科技明白一个深刻的道理:真正的伟大来自责任、格局、德行、境界之“大”,只有不断巩固自己,继续精进才能走向更“大”的未来。


从2018年的本土自研探路,到X3 NPU成为端侧大模型的通用算力底座,安谋科技的进阶之路,也是国内NPU产业从追赶到领跑的缩影。随着2025年X3 NPU的正式发布,它将继续串起芯片设计、算法开发与终端应用的全产业链,为端侧AI大模型的普及提供更坚实的支撑。


而展望未来,安谋科技也将在NPU产品上持续布局,围绕计算架构、计算扩展能力、软件使用界面、通用计算能力和生态与合作模式进行演进。

进入半导体设计/制造查看更多内容>>
相关视频
  • 直播回放: 如何使用MPLAB® Mindi™软件进行模拟电路仿真

  • 直播回放: 开启 SDV 的未来:集成 TI 的远程控制边缘节点解决方案

  • 直播回放: 2026 是德科技XR8新品发布: 一段跨越70年的示波器创新之旅

  • 直播回放: 使用RUHMI模型转换器部署BYOM模型并进行MINST模型部署

  • 直播回放: 使用Reality AI Tools 基于数据创建微小型AI模型以及进行拉弧检测开发实践

  • 直播回放: MPS 赋能人形机器人 - 因为没有运动,机器人只是一尊雕塑

精选电路图
  • 1瓦线性调频增强器

  • 1瓦四级调频发射机

  • 500W MOS场效应管电源逆变器,12V转110V/220V

  • 红外开关

  • LM317过压保护

  • 0-30V/20A 大功率稳压电源(采用LM338)

    相关电子头条文章