历史上的今天
今天是:2024年10月08日(星期二)
2020年10月08日 | NVIDIA介绍NVIDIA Ampere架构的NVIDIA A100 GPU技术
2020-10-08 来源:搜狐
NVIDIA发布重磅应用、系统以及与宝马集团合作
NVIDIA提出了下一代计算的愿景,该愿景将全球信息经济的重心从服务器转移到了新型的强大且灵活的数据。
NVIDIA创始人兼首席执行官在其加州住宅的厨房中录制的六集同时发布的主题演讲中,介绍了NVIDIA最近对Mellanox的收购,还有重盼所归的基于NVIDIA Ampere 架构的新产品以及重要的最新软件技术。
这场主题演讲原计划于3月底在圣何塞举行的NVIDIA GPU技术大会上现场直播,但因冠状病毒疫情而受到影响。
“我要感谢正前线抗击COVID-19所有勇敢的战士们。”黄仁勋在开场时说到,“NVIDIA正在与研究人员和科学家合作,使用GPU和计算来治疗、缓解、控制和追踪这种大规模传染性疾病。”
NVIDIA也宣布了其NVIDIA Clara医疗平台的更新,旨在对抗COVID-19新型冠状病毒。
“研究人员和科学家们正在使用NVIDIA算来挽救生命——这完美地诠释了我们的宗旨:通过制造,解决普通计算机不能解决的问题。”黄仁勋说。
演讲主要围绕作为现代全球信息经济机房的数据中心如何变化,以及在上月完成交易的收购案双方NVIDIA和Mellanox如何共同推动这些变化的愿景。
“数据中心是新的计算单元,NVIDIA正在加速从芯片到和GPU的连接方式,再到整个软件堆栈,以及最终跨整个数据中心的性能提升。”
数据中心规模计算的系统优化
首先,NVIDIA为这种新型的数据中心规模计算优化了新的GPU架构,集AI训练和推理于一身,并实现了灵活且弹性的加速。
NVIDIA A100是第一个基于NVIDIA Ampere架构的GPU,提供了在NVIDIA八代GPU里最大的性能提升,它还可用于数据分析,科学计算和云,并已全面投产并交付给全球客户。
全球18家领先的服务提供商和系统构建商正在将NVIDIA A100整合到他们的服务和产品中,其中包括阿里云、AWS、百度云、思科、Dell chnologies、Google Cloud、HPE、crosoft Azure和甲骨文。
相比上一代,NVIDIA Ampere架构的A100将性能提升了20倍。A100的五大关键特性包括:
超过540亿个,使其成为世界上最大的7纳米处理器
带有TF32的第三代Tensor Core核心,这是一种新的数值格式,可加速开箱即用的单精度AI训练。NVIDIA广泛使用的Tensor Core现在更加灵活,快速,且更易于使用
结构稀疏性(Structural spaity)加速,这是一种新的高效技术,可以利用AI数学固有的稀疏性来获得更高的性能
多实例GPU(Mul-instance GPU或MIG),允许将一个A100分割为多达七个独立的GPU,每个GPU都有自己的资源
第三代NVLink技术,使GPU之间的高速联接能力加倍,从而可以使多个A100服务器充当一个巨型GPU
以上这些特性促成了A100性能的提升:与NVIDIA上一代的Volta架构相比,训练性能提高了6倍,推理性能提高了7倍。
NVIDIA DGX A100具备5 Petaflops的性能
NVIDIA还将发售第三代NVIDIA DGX AI系统—基于NVIDIA A100的NVIDIA DGX A100—世界上第一台5 petaflops服务器。每台DGX A100可以分割为多达56个独立运行的实例。
这使得单个服务器可以“纵向扩展”以完成诸如AI训练之类的计算密集型任务,或者“横向扩展”以进行AI部署或推理。
该系统的最初使用者是美国能源部的阿贡国家实验室,该实验室将利用该集群的AI和计算能力更好地理解和对抗COVID-19。此外,还有佛罗里达大学和德国人工智能研究中心。
美国能源部阿贡国家实验室,将使用DGX A100赋能的AI和算力更好地了解并抗击COVID-19
A100也将作为HGX A100提供给云合作伙伴和服务器制造商。
一套由五台DGX A100系统提供动力的数据中心,其成本仅为100万美元,功耗仅为28千瓦,但其性能足以媲美一套典型数据中心(由50台用于AI训练的DGX-1系统和600个总功耗高达630千瓦的CPU系统构成,成本超过1100万美元)。
NVIDIA还宣布了下一代DGX SuperPOD。它由140台DGX A100系统和Mellanox网络技术搭建而成,可提供700 petaflops的AI性能,堪比全球20台最快的计算机中的任何一台。
新一代DGX SuperPOD实现了强达每秒70 petaflops的AI算力
NVIDIA正在用四个DGX SuperPOD来扩展自己的数据中心,为其内部超级计算机SATURNV,增加了2.8 exaflops的AI计算能力(总计4.6 exaflops),使其成为世界上最快的AI超级计算机。
NVIDIA同时也发布了NVIDIA EGX A100,将强大的实时云计算功能带到了边缘。其NVIDIA Ampere架构GPU提供了第三代Tensor Core和新的安全功能。得益于其NVIDIA Mellanox ConnectX-6 SmartNIC,它还具有安全且快速的联网功能。
当今世界上最重要的应用软件
NVIDIA GPU将为主要软件应用程序提供动力,以加速三个关键用途:管理,创建推荐系统和构建实时会话式AI。
随着的有效性推动公司收集了越来越多的数据,这些新应运而生。积极的反馈使我们体验到的数据收集量呈指数级增长。
为了帮助各类组织顺应潮流,NVIDIA宣布在Spark 3.0上支持NVIDIA GPU加速,大数据分析将成为当今世界上最重要的应用程序之一。
基于RADS的Spark 3.0,打破了提取,转换和加载数据的性能基准。它已经帮助obe ligent Services将计算成本降低了90%。
关键的云分析平台(包括Amazon SageMaker,Azure Machine Learning,Databricks,Google Cloud AI和Google Cloud Dataproc)都将借助NVIDIA加速。
黄仁勋还宣布推出了NVIDIA Merlin,这是一个用于构建下一代推荐系统的端到端框架,该系统正迅速成为更加个性化互联网的引擎。Merlin将创建一个100 TB数据集推荐系统所需的时间从四天减少到20分钟。
他还详细介绍了NVIDIA Jarvis,这是一个新的端到端平台,可以充分发挥NVIDIA AI平台的强大功能,创建实时多模态对话式AI。
他通过一个演示来展示了与名为Misty的AI进行交互的过程,Misty可实时理解并回答一系列有关天气的复杂问题。
自2018年在SIGGRAPH上发布NVIDIA RTX以来,NVIDIA在实时光线追踪方面取得了迅猛发展,当时宣布的NVIDIA Omniverse可以让位于不同地方使用不同工具的设计师,在同个设计的不同部分同时工作。现在已经可供抢先体验客户使用。
汽车
自动驾驶汽车是我们这个时代最大的计算挑战之一,NVIDIA将持续通过NVIDIA DRIVE推动整个行业发展。
NVIDIA DRIVE将使用全新Orin SoC和NVIDIA Ampere GPU,以实现能效和性能,入门级ADAS系统开发所需功率仅需5瓦,并为L5级别robotaxi系统提供2,000 TOPS的性能。
现在,汽车制造商仅需单一计算架构和软件堆栈,即可将AI集成到每一辆车中。汽车制造商可以利用一种架构来开发整个车队,并利用整个车队来进行软件开发。
NVIDIA DRIVE生态系统现已覆盖汽车、卡车、一级汽车供应商、下一代出行服务、初创公司、地图服务和仿真。NVIDIA将在NVIDIA DRIVE技术中增加用于管理整个自动驾驶车队的NVIDIA DRIVE RC。
机器人技术
NVIDIA还将继续推进其NVIDIA Isaac软件定义的机器人平台,宣布宝马集团已选择NVIDIA Isaac机器人技术为其下一代工厂提供动力。
每56秒钟,宝马集团在全球的30家工厂就会生产一辆汽车:40种不同型号的汽车,每种都有数百种不同的选择,3000万个零件来自全球近2,000家供应商。
宝马集团加入了一个庞大的NVIDIA机器人技术全球生态系统,该生态系统涵盖配送、零售、自主移动机器人、农业、服务业、物流、制造和医疗保健。
未来,工厂实际上将成为巨大的机器人。“里面的所有运动部件都会由AI驱动。”黄仁勋说。“将来,每个批量生产的产品都将被逐一量身定制。”
史海拾趣
|
请教高手! 急用!!!!利用汇编实现D/A、A/D转换产生波形并显示. 内容如下:1.利用D/A设计一个波形发生器,能分别产生三角波、正弦波、锯齿波和方波。 2.并利用按键(自行定义)进行输出波形选择。 3.并对应按键选择输出波形 ...… 查看全部问答> |
|
我现在有一块板子,里面自己已经写了USB的固件程序了,可是PC机端的驱动不会开发,想学一学,希望大家给点意见。 我知道固件程序的设备描述表,配置描述表,接口描述表,终端描述表等的定义,我板子上使用的是HID类,目的是想通过USB传递字符(功 ...… 查看全部问答> |
|
STM 32 103xx 用SPI2作为Slave,和inter 196KC通讯时收不到数据,196端用IO口模拟SPI时序,用示波器观看和SPI2连接的MOSI和SCK 均有波形.估计196KC的程序没有错误的,因为和196端还同时连接一个X25045 ...… 查看全部问答> |
|
各位好, 我把STM32 用串口ISP烧写了 IAP (DfuSe需要与之通讯),并且对STM32 作了读保护。 然后用 DfuSe 软件 更新了我的用户程序(APP)。 是可以读保护了,因为 用Jlink 的 JTAG口 是读不出来, ...… 查看全部问答> |
|
MSP430F2274中uart通信,程序没有问题,但是用串口精灵测试就是没有数据 //****************************************************************************** // MSP430F22x4 Demo - USCI_A0, Ultra-Low Pwr UART 9600 String, 32kHz ACLK // // Description: This program demonstrates a f ...… 查看全部问答> |
|
上次看科学网报道 说德国教授说中国有大量的技工但是工程师不多 上次看科学网报道 说德国教授说中国有大量的技工但是工程师不多感觉确实是这样,工程师是解决问题的,而技工只是体力活,没有创造性劳动。并且工程师有理论基础,为什么ic厂的设备技校出来的都可以操作为什么还要找研究生呢?就是因为研究生理论基 ...… 查看全部问答> |
|
摘要:目前很多嵌入式系统以DSP 为核心构建,但是,采用汇编语言开发DSP 系统存在开发难度大、开发周期长、维护性差等缺点,应用C 语言开发DSP 系统是广大嵌入式开发者的迫切要求。有关单片机的C 语言开发有相当多的资料可以参考,而DSP 系统的C 语 ...… 查看全部问答> |
|
为什么我照着这里做,我的VMware的Ubuntu还是不能固定IP? ubuntu下静态IP的设置(VirtualBOX) 1.设置Sun VirtualBox上的网络连接方式. 在Sun VirtualBox上找到你要设置的Ubuntu,点设置->网络->本地连接1->连接方式选择Bridged Adapter ( ...… 查看全部问答> |




