历史上的今天
今天是:2025年03月16日(星期日)
2021年03月16日 | 自适应计算如何解决AI产品化挑战
2021-03-16 来源:EEWORLD
本文作者:赛灵思Nick Ni
人工智能领域迅速发展,创新步伐不断加快。尽管软件行业已经成功地在生产中部署了AI,但是就AI产品化而言,包括汽车,工业和智能零售在内的硬件行业仍处于起步阶段。仍然存在主要差距,阻碍了AI算法概念验证(PoC)成为真正的硬件部署。这些缺点主要是由于数据量小,输入数据“不完美”以及不断变化的“最新技术”模型所致。软件开发人员和AI科学家如何克服这些挑战?答案在于适应性强的硬件。
小数据
诸如Google和Facebook之类的互联网巨头每天都定期收集和分析大量数据。然后,他们使用此数据来创建具有可接受性能的AI模型。在这种情况下,用于训练模型的硬件与用于运行模型的硬件非常不同。
另一方面,在硬件行业中,大数据的可用性受到更大限制,导致成熟的AI模型不那么成熟。因此,大力推动收集更多数据并运行“在线模型”,其中在同一部署的硬件上进行训练和推理,以不断提高准确性。
为了解决这个问题,自适应计算(例如经过现场验证的可编程门阵列(FPGA)和自适应片上系统(SoC))可以运行推理和训练,以不断地将自身更新为新捕获的数据。传统的AI培训需要云或大型本地数据中心,并且需要花费数天或数周的时间才能完成。另一方面,实际数据主要在边缘生成。在同一边缘设备上运行AI推理和训练,不仅可以减少总体拥有成本(TCO),而且可以减少延迟和安全隐患。
“不完美”输入
以显示以X射线图像为例的,发布AI模型PoC从而识别COVID-19检测变得越来越容易,但这些PoC几乎总是基于经过良好清理的输入图片。在现实生活中,来自医疗设备,机器人和行驶中的汽车的相机和传感器输入将具有随机失真,例如深色图像和各种倾斜物体。这些输入首先需要通过复杂的预处理,以清理和重新格式化,然后才能将其输入AI模型。后处理对于弄清AI模型的输出并计算适当的决策非常重要。
确实,某些芯片可能非常擅长AI推理加速,但是它们几乎总是只加速整个应用程序的一部分。以智能零售为例,预处理包括多流视频解码,然后是常规的计算机视觉算法,以对视频进行大小调整,变形和格式化。后处理还包括对象跟踪和数据库查找。最终客户不太在乎AI推理的运行速度,而是在乎他们是否能够满足整个应用程序管道的视频流性能和/或实时响应能力。 FPGA和自适应SoC具有使用特定领域架构(DSA)加速这些预处理和后处理算法的良好记录。另外,添加AI推理DSA将使整个系统得以优化,以满足端到端的产品需求。

DSA需要AI加速和非AI
不断变化的“最新技术”模型
可以说,人工智能研究社区是最活跃的,世界各地的顶级研究人员每天都在发明新的人工智能模型。这些模型提高了准确性,减少了计算需求,并处理了新型的AI应用程序。这项快速的创新继续给现有的半导体硬件设备带来压力,需要更新的架构来有效地支持现代算法。 MLPerf等标准基准测试证明,在运行实际的AI工作负载时,最先进的CPU,GPU和AI ASIC芯片的性能远远低于供应商宣称性能的30%。这一直在推动对新DSA的需求,以跟上创新的步伐。
最近有几种趋势推动了对新DSA的需求。深度卷积需要大的内存带宽和特殊的内部内存缓存才能有效。典型的AI芯片和GPU具有固定的L1 / L2 / L3缓存架构,并且内部内存带宽有限,导致效率非常低。
研究人员正在不断发明新的自定义层,而今天的芯片本身并不能支持这些新的自定义层。因此,它们需要在没有加速的情况下在主机CPU上运行,这常常成为性能瓶颈。
稀疏神经网络是另一种有希望的优化方法,其中通过修剪网络边缘,在卷积中删除细粒度的矩阵值等,对网络进行大量修剪,有时可达99%。但是,要运行要在硬件上有效地做到这一点,就需要专门的稀疏体系结构,以及大多数芯片根本没有的用于这些操作的编码器和解码器。
二进制/三进制是极限优化,可以将所有数学运算转换为位运算运算。大多数AI芯片和GPU仅具有8位,16位或浮点计算单元,因此通过执行极低的精度将不会获得任何性能或功效。 FPGA和可适应的SoC非常完美,因为开发人员可以开发出完美的DSA并为产品针对现有设备进行重新编程。作为证明,最新的MLPerf包括Xilinx与Mipsology合作提交的文件,该文件使用ResNet-50标准基准达到了100%的硬件数据表性能。

FPGA的MLPerf测评
没有硬件专业知识?没问题
从历史上看,FPGA和自适应SoC的最大挑战是需要硬件专家来实施和部署DSA。好消息是,现在有一些工具(如Vitis统一软件平台)支持C ++,Python和流行的AI框架(如TensorFlow和PyTorch),从而缩小了软件和AI开发人员的差距。
除了在软件抽象工具方面进行更多开发之外,诸如Vitis硬件加速库之类的开源库也极大地促进了开发人员社区的采用。在最近的设计竞赛中,Xilinx吸引了1000多名开发人员,并发布了许多创新项目,从手势控制的无人机到使用二值神经网络的强化学习。重要的是,提交的大多数项目都是由以前没有FPGA经验的软件和AI开发人员提供的。这证明FPGA行业正在采取正确的步骤来使软件和AI开发人员能够解决现实世界中AI产品化的挑战。

物联网的自适应智能
直到最近,对于普通的软件开发人员和AI科学家而言,释放硬件适应性的功能都是无法实现的。以前需要特定的硬件专业知识,但是由于有了新的开源工具,软件开发人员现在可以使用适应性强的硬件。借助这种新的编程简便性,成千上万的软件开发人员和AI科学家将更易于使用FPGA和自适应SoC,从而使这些设备成为下一代应用程序的首选硬件解决方案。实际上,DSA将代表AI推理的未来,软件开发人员和AI科学家将利用硬件的适应性为其下一代应用提供支持。
史海拾趣
|
摘要:航空蓄电池野外充放电车的设计与研制,采用电子集成化模块和开发电源技术,使航空蓄电池野外充放电车的功率大、体积小、稳态精度高。通过在航空兵部队的使用,证明移动式综合充放电设备具重要的经济和军事效益。 关键词: ...… 查看全部问答> |
|
转自:NI 概览 为您下一个嵌入式项目或想法创建功能原型系统是得到预算和从高层管理获得批准的重要步骤。在开始原型开发之前,考虑一下您所有需要的工具。另一个需要记住的重要原则是原型开发应该足够快速,不应该在原型系统上花费过多的时间,投 ...… 查看全部问答> |
|
设计了一个5.0V输入,可调输出buck电路,1.5M固定频率但是在较大电流输出,并直接开关电源的时候,时不时出现不稳定情况不稳定时前几个占空比很大,直至输出电压过高仿真上非常稳定,PM也足够这可能是什么原因造成的?请教各位!… 查看全部问答> |
|
在一个VxWorks操作系统中,如何通过网络驱动网络打印机(如HP LaserJet 5200网络激光打印机)打一份文本文件。 大家可以给出一些启发性的意见。… 查看全部问答> |
|
我用的是MSP1121的,在XIN和XOUT两端接一个4M晶振。如下设置后,但是就是不起振。 不知道是什么原因? BCSCTL1 |= XTS; // ACLK= LFXT1= 高频晶体振荡器 do { IFG1 &= ~OFI ...… 查看全部问答> |




