AMD云计算的自我实践
2011-11-30 来源:CCTIME飞象网
AMD是一家拥有创新传统的半导体设计公司,它的各种创新技术打造了现代计算的新面目。随着云计算的兴起,AMD再度担当了技术领导者的角色,引领着新一代高能效多核处理器的技术潮流,正在为全世界的云计算部署奠定基石。
AMD面临复杂性挑战
设计半导体是一项复杂的工程任务,需要耗费巨大的计算能力。对于AMD来说,这种计算能力必须能被遍及全球、多学科的AMD 工程师轻松、充分地获取。为此,AMD曾构建众多系统集群来满足计算能力需求,包括部署超过15,000 台服务器。这些服务器上安装着版本多样的操作系统与文件系统,以及千差万别的存储管理与集群软件。随着每年基础设施规模扩大20-30%, 软硬件升级几乎时刻不能停顿。
然而,“复杂性”的挑战还不止于硬件的操作系统。数据的管理与迁移同样问题重重。由于设施遍布全球并且互不相连,AMD不得不在各站点之间复制大型数据集。因此,在一个给定地点建立起可用的项目数据,可能需要花费数周时间。
项目一旦开展起来,还会遇到新的障碍。测试半导体设计,需要获取成千上万个计算核心。然而,为了避免资源浪费,任何一个AMD设施都不会过度配置。为了完成测试并符合AMD严格的产品标准,工程师们不得不见缝插针地安排时间,排队等待在可用的机器上运行测试。一方面,AMD 所拥有的服务器总数超出所需,另一方面,哪怕在很短时间内,将充足的计算能力转向某个特定项目组,都很难做到。简言之,AMD已具备巨大的计算能力,但无法满足灵活性、可管理性、可获取性、成本效率的要求。
AMD将基础设施迁移到“云”中
2009 年4月,AMD IT部门启动一个项目,旨在改变服务器和存储的孤立状态,方法是将遍布全球的所有设备整合到私有云之中。项目总的策略——用AMD内部的话来说——是“随处计算”。具体计划是将各数据中心集中化,并提供恰当的连接工具,建立起AMD私有云,为全世界所有AMD设计项目提供计算能力。
在项目早期,AMD IT部门将全公司服务器中渐趋过时的处理器更换为更新、更高能效的AMD皓龙处理器。处理器的无缝升级为AMD私有云带来很大益处。
AMD IT部门在充分利用已有基础设施的同时,将AMD的计算容量加倍,从中节省600 万美元以上的成本。
与此同时,AMD IT部门还启动了另一个项目,贯穿全新的AMD云开展软件及其版本的标准化。基于其多核支持和高扩展性,将Rad Hat Enterprise Linux 选作基本操作系统。在调查使用模式与软件功能之后,AMD IT部门还针对来自Cadence、Mentor Graphics 以及Synopsis的工作负载管理和EDA 软件,开展平台计算标准化,优化了设计和模拟工具。
AMD云效果显著
提供高灵活度和高速度
在迁移过程中,AMD工程设计项目继续按照密集的日程执行,即使计算资源基本容量增加了20% 以上也是如此。如今,新创建的AMD云基础架构运行于超过115,000 个AMD CPU核心和超过4PB 存储资源之上。它已成为AMD一个不可或缺的组成部分,帮助其向客户传递值得期待的研发创新。AMD 所有的工程设计项目均在私有云中开展。
与此同时,AMD的IT部门能够动态地响应工程设计团队的项目需求。项目的开展不再受地理条件的制约,因为所需的数据可在众多地点之间平滑地流动和共享。只需数小时即可重新设定资源的使用优先度。举例来说,2010 年8月,Bobcat (山猫)项目组需要加快设计过程以适应新的市场需求。该团队请求“模拟高峰加速”(Simulation Rush )。AMD的IT部门在一夜之间从AMD 云动态地重新分配容量,为该项目团队提供42,000 个CPU核心(大约45%的计算资源)在五天内使用。典型的项目组通常只用到4%的云资源。借助新增的计算能力,山猫项目组在五天内完成了原本需要两个月的测试工作。这直接加快了产品的上市时间,并为AMD 节省了数百万美元的成本。
为了确保效率的最大化,AMD 的工程设计实现部门领导着云资源的分配。该部门包含AMD 高级工程领导人员,他们对于不断变化的客户需求有着深入的理解,能够相应安排项目进行的优先次序。然后,由IT部门的网络维护服务部实际分配资源。凭借充分的标准化和灵活性,AMD 能够更好地运用硬件开支,降低支持硬件所需的数据中心成本。
提供更宽广的资源获取途径
随着计算资源灵活性的提高,AMD IT部门部署了来自Wyse 的瘦客户端技术。基于AMD Fusion APU (加速处理单元)技术的瘦客户端提供从远程站点到AMD云的高速访问。
降低存储成本
如今,由于数据随处可得,不再需要在本地保留数据集的冗余拷贝。利用整合的数据集,AMD能让任何地点的工程师随需参与到任何项目之中。整合还使AMD得以充分利用一度闲置在分散站点的已有的高端设计软件。
促进生产力的提高
目前,有30个大型项目正在利用AMD云,包括AMD APU和全新Bulldozer 核心的相关设计工作。每月,全世界大约3,000 名工程师在AMD云上执行约4,000 项工作,使AMD云保持了超过90% 的利用率—— 无论是可用服务器的使用,还是每个核心的平均工作负载。
实现卓越的预测能力
AMD 云使AMD 的IT部门能够响应动态需求,在全球范围调配资源,并且保持较高的服务交付水平。灵活性和标准化使任何工程设计项目都能轻松地在云中流转。AMD IT部门与高级工程师密切合作,向AMD 的工程设计部门提供最高效、最可靠的服务。因此,AMD 向极其倚重计算能力的研发活动注入了动力—— 在这样做的同时,还能有充分的信心和充足的资源来应对任何新的研发挑战。
AMD IT部门企业副总裁Tom Painter先生 表示:“AMD云项目实现了‘随处计算’,即:将已有的资源汇聚起来并整合到云中,同时丝毫无损 企业生产力。我们所拥有的最大优势是:我们的基础架构基于的是AMD皓龙处理器,这使我们能够快速开展无缝升级,并将停机时间缩至最短。”
上一篇:深圳韩国携手研发物联网技术
- AMD推出第二代Versal Premium系列产品:首款PCIe 6.0和CXL 3.1的SoC FPGA
- AMD将裁员4%,以在人工智能芯片领域争取更强的市场地位
- NEC收获新超算订单:英特尔CPU+AMD加速器+英伟达交换机
- AMD 宣布推出第二代 Versal Premium 系列,实现全新系统加速水平,满足数据密集型工作负载需
- 用FPGA解决高频交易时延问题:AMD推出Alveo UL3422金融专用加速卡
- AMD 推出第二代 Versal Premium 系列:FPGA 行业首发支持 CXL 3.1 和 PCIe Gen 6
- AMD超越英特尔:今年Q3 CPU出货量激增
- AMD 发布首个 10 亿开源 AI 模型 OLMo,用 Instinct MI250 GPU 集群训练而成
- 开启工业视觉新纪元!研华工业主板AIMB-523搭载AMD Ryzen™嵌入式7000系列处理器震撼上市!
- 史无前例,Intel和AMD联姻:让x86再次伟大
- AI大模型时代,GPU高速互连如何正确破局
- 专访Silicon Labs:深度探讨蓝牙6.0的未来发展趋势
- 恩智浦发布S32J系列安全以太网交换机支持可扩展汽车网络,拓展CoreRide平台
- 智能无处不在:安谋科技“周易”NPU开启端侧AI新时代
- Rambus宣布推出业界首款HBM4控制器IP,加速下一代AI工作负载
- 现代摩比斯选择BlackBerry QNX,驱动下一代数字座舱平台
- MACOM获得美国防部资助开发GaN-on-SiC产品
- 我国首次实现骨干电网大规模卫星巡视,工作效率是人工 10 倍以上
- 英飞凌推出新型高性能微控制器AURIX™ TC4Dx
- 恩智浦FRDM平台助力无线连接
- Wi-Fi 8规范已在路上:2.4/5/6GHz三频工作
- 治理混合多云环境的三大举措
- Microchip借助NVIDIA Holoscan平台加速实时边缘AI部署
- 是德科技 FieldFox 手持式分析仪配合 VDI 扩频模块,实现毫米波分析功能
- 高通推出其首款 RISC-V 架构可编程连接模组 QCC74xM,支持 Wi-Fi 6 等协议
- Microchip推出广泛的IGBT 7 功率器件组合,专为可持续发展、电动出行和数据中心应用而设计
- 英飞凌推出新型高性能微控制器AURIX™ TC4Dx
- Rambus宣布推出业界首款HBM4控制器IP,加速下一代AI工作负载
- 恩智浦FRDM平台助力无线连接