嵌入式
返回首页

rk3399平台MNN推理引擎benchmark测试:CPU与GPU性能对比

2026-04-14 来源:EEWorld 论坛

背景介绍

MNN是阿里巴巴开源的一款轻量级深度学习推理引擎,专为移动端和嵌入式设备优化。本文基于rk3399平台,对MNN进行benchmark测试,比较CPU和GPU(通过OpenCL)的推理性能,以评估其在嵌入式环境中的适用性。

测试环境与步骤

测试在rk3399开发板上进行,首先通过Git克隆MNN仓库,并使用交叉编译工具链构建项目。在CMake配置中,启用了OpenCL支持以测试GPU加速,同时编译了benchmark工具。部署时,将生成的库文件和模型文件复制到目标设备,并运行benchmark测试程序,分别测试CPU(参数设为0)和GPU(参数设为3)模式。

测试结果分析

在CPU模式下,MNN表现稳定,多个模型的推理时间在13ms到505ms之间,例如MobileNetV2_224模型平均耗时42.041ms。而在GPU模式下,使用OpenCL加速后,性能反而下降,部分模型如SqueezeNetV1.0耗时增至159.619ms,且出现算子错误(如“scalePtrCL == nullptr”警告),表明OpenCL实现存在兼容性或性能问题。相比之下,作者提到在rk3568平台上OpenCL测试流畅,这暗示rk3399的GPU驱动或MNN适配可能需进一步优化。

结论与引导

本次测试显示,在rk3399平台上,MNN的CPU推理性能可靠,但GPU通过OpenCL加速时效果不佳,存在速度慢和算子错误问题。这可能是硬件适配或软件配置所致,建议开发者深入排查。更多详细步骤、完整测试数据和视频演示,请参考原帖子:rk3399使用阿里推理引擎MNN使用cpu和gpu进行benchmark,OpenCL效果不佳?

原帖子内容来源:https://bbs.eeworld.com.cn/thread-1273962-1-1.html



进入嵌入式查看更多内容>>
相关视频
  • 【TI MSPM0 应用实战】智能小车+工业角度编码器+血氧仪+烟雾探测器!硬核参考设计详解!

  • FollowMe 第二季:3 - EK_RA6M5 开发板入门

  • FollowMe 第二季: 1 Adafruit Circuit Playground Express及任务讲解

  • Azure RTOS step by step workshop

  • 2022 Digi-Key KOL 系列: 你见过1GHz主频的单片机吗?Teensy 4.1开发板介绍

  • 从0到1:树莓派与物联网教程(英文)

精选电路图
  • PCM2707 USB音频数模转换芯片声卡

  • TDA2050立体声音频功率放大器

  • 基于LM317和TIP42的40V 2A电源

  • 序列式刹车/转向灯

  • 使用 PMIC 延长便携式应用中的电池寿命

  • 智能工厂的智能电源设计

    相关电子头条文章