英特尔AI解决方案为最新Meta Llama 3.1模型提供加速
2024-07-25
为了推动“让AI无处不在”的愿景,英特尔在打造AI软件生态方面持续投入,并为行业内一系列全新AI模型提供针对英特尔AI硬件的软件优化。今日,英特尔宣布公司横跨数据中心、边缘以及客户端AI产品已面向Meta最新推出的大语言模型(LLM)Llama 3.1进行优化,并公布了一系列性能数据。
继今年4月推出Llama 3之后,Meta于7月24日正式发布了其功能更强大的AI大模型Llama 3.1。Llama 3.1涵盖多个不同规模及功能的全新模型,其中包括目前可获取的、最大的开放基础模型—— Llama 3.1 405B(4050亿参数)。目前,英特尔丰富的AI产品组合已支持上述最新模型,并通过开放生态系统软件实现针对性优化,涵盖PyTorch及英特尔® PyTorch扩展包(Intel® Extension for PyTorch)、DeepSpeed、Hugging Face Optimum库和vLLM等。此外,企业AI开放平台(OPEA)亦为这些模型提供支持,OPEA这一全新的开放平台项目是由LF AI & Data基金会发起,旨在聚合生态之力,推动创新,构建开放、多供应商的、强大且可组合的生成式AI解决方案。
Llama 3.1多语言大模型组合包含了80亿参数、700亿参数以及4050亿参数(文本输入/文本输出)预训练及指令调整的生成式AI模型。其每个模型均支持128k长文本和八种不同的语言。其中,4050亿参数的Llama 3.1模型在基本常识、可操作性、数学、工具使用和多语言翻译方面具有行业领先的能力。同时,该模型亦帮助开发者社区解锁诸如合成数据生成和模型蒸馏(Model Distillation)等全新功能。
以下内容展示了英特尔的部分AI产品组合运行Llama 3.1模型的初步性能结果,包括英特尔®至强®处理器、搭载英特尔®酷睿™ Ultra处理器和英特尔锐炫™显卡的AI PC产品。
运行Llama 3.1时展现出卓越性能
作为通用计算的基石,英特尔®至强®处理器为全球用户提供强大算力,现已通过各大云服务商面市。英特尔至强处理器在其每个核心中均内置了英特尔®高级矩阵扩展(AMX)AI引擎,可将AI性能提升至新水平。根据基准测试,在第五代英特尔至强平台上以1K token输入和128 token输出运行80亿参数的Llama 3.1模型,可以达到每秒176 token的吞吐量,同时保持下一个token延迟小于50毫秒。图1展示了运行支持128k长文本的80亿参数Llama 3.1模型时,下一个token延迟可低于100毫秒。
图1. 基于第五代英特尔®至强®可扩展处理器的Llama 3.1推理延迟
由英特尔®酷睿™ Ultra处理器和英特尔锐炫™显卡驱动的AI PC可为客户端和边缘提供卓越的设备端AI推理能力。凭借诸如英特尔酷睿平台上的NPU,以及锐炫显卡上英特尔® Xe Matrix Extensions加速等专用的AI硬件,在AI PC上进行轻量级微调和应用定制比以往更加容易。对于本地研发,PyTorch及英特尔PyTorch扩展包等开放生态系统框架可帮助加速。而对于应用部署,用户则可使用英特尔OpenVINO™工具包在AI PC上进行高效的模型部署和推理。AI工作负载可无缝部署于CPU、GPU以及NPU上,同时实现性能优化。
图2. 在配备内置英特尔锐炫™显卡的英特尔®酷睿™ Ultra 7 165H AI PC上,Llama 3.1推理的下一个token延迟
图3. 在使用英特尔锐炫™A770 16GB限量版显卡的AI PC上,Llama 3.1推理的下一个token延迟
利用Llama 3.1和OPEA部署企业RAG解决方案
英特尔AI平台和解决方案能够有助于企业部署AI RAG。作为OPEA的发起成员之一,英特尔正帮助引领行业为企业AI打造开放的生态系统,同时,OPEA亦助力Llama 3.1模型实现性能优化。
基于可组合且可配置的多方合作组件,OPEA为企业提供开源、标准化、模块化以及异构的RAG流水线(pipeline)。此次测试中,微服务部署于OPEA蓝图的每一支细分领域中,包括防护(Guardrail)、嵌入(Embedding)、大模型、数据提取及检索。端到端RAG流水线通过Llama 3.1进行大模型的推理及防护,使用BAAI/bge-base-en-v1.5模型进行嵌入,基于Redis向量数据库,并通过Kubernetes(K8s)系统进行编排。
图4:基于Llama 3.1的端到端RAG流水线,由英特尔Gaudi 2加速器和至强处理器提供支持
目前,英特尔AI PC及数据中心AI产品组合和解决方案已面向全新Llama 3.1模型实现优化,OPEA亦在基于英特尔至强等产品上全面启用。未来,英特尔将持续投入软件优化,支持更多全新的模型与用例。
产品与性能信息
英特尔至强处理器:在第五代英特尔®至强®可扩展处理器上测量,使用:2个英特尔至强Platinum 8593Q、64核、超线程开启、睿频开启、NUMA 4、512GB(16x32GB DDR5 5600 MT/s [5600 MT/s])、BIOS 3B07.TEL2P1、微码0x21000200、三星SSD 970 EVO Plus 2TB、CentOS Stream 9、5.14.0-437.el9.x86_64、使用PyTorch和IPEX 2.4运行的模型。英特尔于2024年7月22日进行测试。点击获取资源库。
英特尔®酷睿™ Ultra:在搭载英特尔酷睿Ultra 7 165H平台的微软Surface Laptop 6上进行测量,使用32GB LPDDR5 7467Mhz总内存、英特尔显卡驱动程序101.5762、IPEX-LLM 2.1.0b20240718、Windows 11 Pro版本22631.3593、性能电源策略与核心隔离启用。英特尔锐炫™显卡仅适用于部分H系列英特尔®酷睿™ Ultra处理器驱动的系统,且双通道配置中系统内存至少为16GB。需要OEM支持,请咨询OEM或零售商了解系统配置详情。英特尔于2024年7月18日进行测试。点击获取资源库。
英特尔锐炫™ A系列显卡:使用英特尔酷睿i9-14900K、华硕ROG MAXIMUS Z790 HERO主板、32GB (2x 16GB) DDR5 5600Mhz和Corsair MP600 Pro XT 4TB NVMe SSD,对英特尔锐炫A770 16GB限量版显卡进行测量。软件配置包括英特尔显卡驱动程序101.5762、IPEX-LLM 2.1.0b20240718、Windows 11 Pro版本22631.3593、性能电源策略与核心隔离禁用。英特尔于2024年7月18日进行测试。点击获取资源库。
免责声明
性能因使用情况、配置和其他因素而异。欲了解更多信息,请访问性能指数网站。性能结果基于截至所示日期的测试,可能无法反映所有公开可用的更新。请参阅备份以了解配置详情。没有任何产品或组件是绝对安全的。您的成本和结果可能会有所不同。英特尔技术可能需要启用硬件、软件或激活服务。
AI免责声明
AI功能可能需要购买软件、订阅或由软件/平台提供商启用,或者可能有特定的配置或兼容性要求。
- 英特尔中国正式发布2023-2024企业社会责任报告
- AMD超越英特尔:今年Q3 CPU出货量激增
- ARM、Intel、MIPS处理器啥区别?看完全懂了
- 郭明錤剖析英特尔Lunar Lake失败原因:制程落后,更在于产品规划能力
- BlackBerry QNX与英特尔合作推出软件定义功能安全平台,助力工业自动化
- 英特尔宣布对中国成都基地扩容
- 英特尔携50家伙伴,搭载酷睿Ultra (第二代)的30款笔记本和台式机AI PC全家桶亮相
- 英特尔CEO帕特·基辛格:共筑x86核心架构,推动AI PC创新
- 英特尔至强6性能核处理器性能显著提升!
- 组团对抗台积电,消息称英特尔计划和三星高层会谈组建“半导体复仇者联盟”
- 是德科技 FieldFox 手持式分析仪配合 VDI 扩频模块,实现毫米波分析功能
- 高通推出其首款 RISC-V 架构可编程连接模组 QCC74xM,支持 Wi-Fi 6 等协议
- Microchip推出广泛的IGBT 7 功率器件组合,专为可持续发展、电动出行和数据中心应用而设计
- 英飞凌推出新型高性能微控制器AURIX™ TC4Dx
- Rambus宣布推出业界首款HBM4控制器IP,加速下一代AI工作负载
- 恩智浦FRDM平台助力无线连接
- 大联大诠鼎集团推出基于Qualcomm产品的Wi-Fi 7家庭网关方案
- 专访Silicon Labs:深度探讨蓝牙6.0的未来发展趋势
- Works With线上开发者大会即将展开,在线领略全球活动内容精髓