上篇我们把树莓派5B的底裤扒了个干净,单核153 GOPS(INT8)、四核611 GOPS的数据看着还挺唬人。
但光看一个板子没意思,得有参照物才知道这玩意儿到底啥水平。
正好手头还有一块RK3566的开发板和一台吃灰的树莓派4B,干脆一块儿拉出来溜溜,来个嵌入式板子算力大乱斗。
树莓派5B:博通BCM2712,4核Cortex-A76,主频2.4GHz,ARMv8架构,支持NEON和SVE(虽然SVE还没完全放开)
RK3566:瑞芯微家的,4核Cortex-A55,主频1.8GHz,同样是ARMv8,但定位偏中低端,常用于平板、NAS、智能屏这类设备
树莓派4B:博通BCM2711,4核Cortex-A72,主频1.5GHz(我这台是1.5版),算是上一代明星产品
三个板子都是4核心ARM,指令集都支持asimd(ARM的NEON SIMD扩展),但RK3566和树莓派5B还多了asimd_dp(支持INT8点积累加)和asimd_hp(支持FP16半精度)。树莓派4B就比较惨,只有基础的asimd。
单线程:
双线程:
四线程:
对应结果我贴出来了,如下:
RK3566对应的结果
root@localhost:/home/lckfb/zzf/test/cpufp-master# ./cpufp --thread_pool=[0]
Number Threads: 1
Thread Pool Binding: 0
----------------------------------------------------------------
| Instruction Set | Core Computation | Peak Performance |
| asimd_dp | dp4a.vs(s32,s8,s8) | 59.885 GOPS |
| asimd_dp | dp4a.vv(s32,s8,s8) | 59.847 GOPS |
| asimd_dp | dp4a.vs(u32,u8,u8) | 59.814 GOPS |
| asimd_dp | dp4a.vv(u32,u8,u8) | 59.782 GOPS |
| asimd_hp | fmla.vs(fp16,fp16,fp16) | 29.889 GFLOPS |
| asimd_hp | fmla.vv(fp16,fp16,fp16) | 29.885 GFLOPS |
| asimd | fmla.vs(f32,f32,f32) | 14.918 GFLOPS |
| asimd | fmla.vv(f32,f32,f32) | 14.938 GFLOPS |
| asimd | fmla.vs(f64,f64,f64) | 7.4674 GFLOPS |
| asimd | fmla.vv(f64,f64,f64) | 7.4658 GFLOPS |
----------------------------------------------------------------
root@localhost:/home/lckfb/zzf/test/cpufp-master# ./cpufp --thread_pool=[0-1]
Number Threads: 2
Thread Pool Binding: 0 1
----------------------------------------------------------------
| Instruction Set | Core Computation | Peak Performance |
| asimd_dp | dp4a.vs(s32,s8,s8) | 118.29 GOPS |
| asimd_dp | dp4a.vv(s32,s8,s8) | 118.25 GOPS |
| asimd_dp | dp4a.vs(u32,u8,u8) | 118.11 GOPS |
| asimd_dp | dp4a.vv(u32,u8,u8) | 118.03 GOPS |
| asimd_hp | fmla.vs(fp16,fp16,fp16) | 59.015 GFLOPS |
| asimd_hp | fmla.vv(fp16,fp16,fp16) | 58.969 GFLOPS |
| asimd | fmla.vs(f32,f32,f32) | 29.503 GFLOPS |
| asimd | fmla.vv(f32,f32,f32) | 29.393 GFLOPS |
| asimd | fmla.vs(f64,f64,f64) | 14.723 GFLOPS |
| asimd | fmla.vv(f64,f64,f64) | 14.722 GFLOPS |
----------------------------------------------------------------
root@localhost:/home/lckfb/zzf/test/cpufp-master# ./cpufp --thread_pool=[0-3]
Number Threads: 4
Thread Pool Binding: 0 1 2 3
----------------------------------------------------------------
| Instruction Set | Core Computation | Peak Performance |
| asimd_dp | dp4a.vs(s32,s8,s8) | 234.72 GOPS |
| asimd_dp | dp4a.vv(s32,s8,s8) | 234.22 GOPS |
| asimd_dp | dp4a.vs(u32,u8,u8) | 234.24 GOPS |
| asimd_dp | dp4a.vv(u32,u8,u8) | 233.9 GOPS |
| asimd_hp | fmla.vs(fp16,fp16,fp16) | 114.42 GFLOPS |
| asimd_hp | fmla.vv(fp16,fp16,fp16) | 116.82 GFLOPS |
| asimd | fmla.vs(f32,f32,f32) | 58.365 GFLOPS |
| asimd | fmla.vv(f32,f32,f32) | 58.332 GFLOPS |
| asimd | fmla.vs(f64,f64,f64) | 29.125 GFLOPS |
| asimd | fmla.vv(f64,f64,f64) | 29.147 GFLOPS |
----------------------------------------------------------------
单线程:
双线程:
四线程:
树莓派4B对应的结果
zzf@zzf:~/test/cpufp-master $ ./cpufp --thread_pool=[0]
Number Threads: 1
Thread Pool Binding: 0
-------------------------------------------------------------
| Instruction Set | Core Computation | Peak Performance |
| asimd | fmla.vs(f32,f32,f32) | 14.373 GFLOPS |
| asimd | fmla.vv(f32,f32,f32) | 14.369 GFLOPS |
| asimd | fmla.vs(f64,f64,f64) | 7.1841 GFLOPS |
| asimd | fmla.vv(f64,f64,f64) | 7.1834 GFLOPS |
-------------------------------------------------------------
zzf@zzf:~/test/cpufp-master $ ./cpufp --thread_pool=[0-1]
Number Threads: 2
Thread Pool Binding: 0 1
-------------------------------------------------------------
| Instruction Set | Core Computation | Peak Performance |
| asimd | fmla.vs(f32,f32,f32) | 28.742 GFLOPS |
| asimd | fmla.vv(f32,f32,f32) | 28.742 GFLOPS |
| asimd | fmla.vs(f64,f64,f64) | 14.377 GFLOPS |
| asimd | fmla.vv(f64,f64,f64) | 14.373 GFLOPS |
-------------------------------------------------------------
zzf@zzf:~/test/cpufp-master $ ./cpufp --thread_pool=[0-3]
Number Threads: 4
Thread Pool Binding: 0 1 2 3
-------------------------------------------------------------
| Instruction Set | Core Computation | Peak Performance |
| asimd | fmla.vs(f32,f32,f32) | 57.013 GFLOPS |
| asimd | fmla.vv(f32,f32,f32) | 57.051 GFLOPS |
| asimd | fmla.vs(f64,f64,f64) | 28.546 GFLOPS |
| asimd | fmla.vv(f64,f64,f64) | 28.517 GFLOPS |
-------------------------------------------------------------
为了看得清楚,我把三个板子的关键数据拉个表:
| 板子 | 测试模式 | INT8 (GOPS) | FP16 (GFLOPS) | FP32 (GFLOPS) |
|---|---|---|---|---|
| 树莓派5B | 单线程 | 153 | 76.6 | 38.2 |
| 双线程 | 306 | 153 | 76.6 | |
| 四线程 | 611 | 304 | 152 | |
| RK3566 | 单线程 | 59.8 | 29.8 | 14.9 |
| 双线程 | 118 | 59.0 | 29.5 | |
| 四线程 | 234 | 114 | 58.3 | |
| 树莓派4B | 单线程 | 不支持 | 不支持 | 14.3 |
| 双线程 | 不支持 | 不支持 | 28.7 | |
| 四线程 | 不支持 | 不支持 | 57.0 |
我们结合之前的文章中的CPU跑分进行分析(使用coremark进行的,这个系列的前几篇文章,需要的可以去我主页看看)
| 对比项 | 树莓派5B | 树莓派4B | 泰山派 RK3566 |
|---|---|---|---|
| CoreMark总分 | 17834.85 | 9513.92 | 6636.11 |
| 性能相对比 | 100% | 53.3% | 37.2% |
| 单核效率比 | 100% | 70.8% | 49.4% |
| 总测试时间 | 16.821s | 11.562s | 16.576s |
| 迭代次数/秒 | 17834.85 | 9513.92 | 6636.11 |
| 架构代际 | Cortex-A76 | Cortex-A72 | Cortex-A55 |
数据都摆出来了,咱得唠唠这背后代表了啥。不然光看一堆数字,跟看天书没啥区别。
1. 树莓派5B:性能真神
先看CPUFP的FP32浮点——这是科学计算和传统 workloads 的硬指标。5B单核38.2 GFLOPS,四核152 GFLOPS;4B单核14.3,四核57。这一对比,5B正好是4B的2.6倍左右。
再看CoreMark总分,5B的17834对着4B的9513,差了将近一倍。单核效率比更是直接显示:A76比A72高了30%的IPC(每时钟指令数)。
这说明啥?说明博通这次没挤牙膏。Cortex-A76对比A72,架构层面的改进是实打实的——更好的分支预测、更大的缓存、更宽的执行流水线。再加上主频从1.5GHz拉到2.4GHz,双重buff叠满,性能翻倍不奇怪。
2. RK3566:性价比选手,但别指望越级打怪
看CPUFP数据,RK3566单核14.9 GFLOPS、四核58.3 GFLOPS,跟树莓派4B几乎贴脸——甚至还高了那么一丢丢。
但CoreMark就露馅了:4B跑了9513分,RK3566只有6636,差了30%多。
为啥浮点差不多,综合性能差这么多?因为CoreMark不光考浮点,还考整数运算、分支预测、内存子系统这些。Cortex-A55本身就是个低功耗核心,设计目标是省电不是拼性能,缓存和流水线都比A72精简不少。再加上主频1.8GHz对1.5GHz的优势,被架构短板给抵消了。
所以结论是:RK3566的CPU性能,跟树莓派4B互有胜负但整体略输,跟5B就别比了——那是两个世界的物种(性能方面是大神与菜鸟,毕竟RK3566跑Ubuntu桌面都卡。。。)。
3. 树莓派4B:老将的体面
57 GFLOPS的FP32、9513的CoreMark,放今天看确实不算亮眼。但你要想,这是2019年的设计,用28nm工艺(后来改14nm但架构没变),硬是撑到了现在还能打。
而且别忘了,4B的FP32浮点跟RK3566五五开,CoreMark还稳压一头。一个五六年前的架构,能跟2021年发布的A55打得有来有回,A72当年确实是颗好芯(比较在当年也是很火的,就算放到现在也是很多人DIY的首选)。但短板也很明显:没有INT8加速。现在AI推理主流玩法都是量化到INT8,4B只能硬扛FP32,效率天然吃亏。跑个MobileNet可能还行,想玩YOLO或者大模型,还是比较吃力,纯CPU推理还是比较卡的。
4. INT8才是AI时代的硬通货
看CPUFP的INT8数据,5B单核153 GOPS、四核611 GOPS;RK3566单核59.8、四核234。4B直接不支持。
这就很有意思了:RK3566的INT8性能,正好是5B的38%左右——跟CoreMark的总分比例(37.2%)几乎一模一样。
这说明啥?说明在实际的AI推理场景里,RK3566大概就是5B的三分之一到四成的水平。再加上5B主频更高、缓存更大,实际跑模型可能差距还会拉大。
至于4B,没有INT8加速,跑量化模型要么转成FP32(慢4倍),要么干脆跑不动。这就是为啥现在说“树莓派玩AI”,基本都默认5B起步——4B是真的老了。
这仅是通过本次实验数据下的一个最最最普通的主观判断,如果大神们有其他看法可以在评论区一起探讨一下,十分欢迎
树莓派5B:性能天花板,预算够就上
优点:CPU性能碾压另外俩,INT8加速到位,AI友好
缺点:贵(我的8G版本现在需要1000),难买(经常缺货)
适合人群:想玩AI、想跑服务、想折腾但不想将就的
树莓派4B:老当益壮,但别抱太高期望
优点:生态完善、文档多、稍微便宜(8G版本800+)
缺点:没INT8加速,跑AI费劲,性能明显落后
适合人群:手头已经有4B的、跑轻量服务的、不碰AI的
RK3566:性价比之选,但得会玩
优点:便宜(200-300,因为DDR变贵了,现在可以不止了)、自带NPU、国产板子可玩性高
缺点:CPU性能垫底、生态不如树莓派、需要自己折腾
适合人群:预算有限、愿意折腾NPU、想做特定嵌入式项目的
测完这一圈,最大的感受是:ARM板子这几年的进步,其实比我们想象的要快。
五年前,树莓派3B+还在用A53,跑个FP32浮点也就个位数GFLOPS。现在一块几百块的板子,INT8算力能干到600+ GOPS,能跑YOLO、能玩大模型(虽然慢)、能干的事儿多了去了。
技术的下放速度,确实比我们感知的要快。只不过平时天天用,反而不觉得有啥变化。偶尔拉出老板子跑一跑,才发现——哦,原来已经走了这么远。不过RK3566在国产里面也算不上高性能,希望我下次可以有机会体验到更高性能的(RK3588,RK3576...)开发板,这样评测就可以更加彻底了。
但说实话,跑分这东西,永远只是个参考。同样的芯片,不同的散热条件、不同的系统优化、不同的编译选项,跑出来可能天差地别。我这边的测试环境也就图一乐,真较真的话,还得看实际跑应用的体验。再说了,选板子这事儿,从来都不是只看性能——价格、生态、功耗、社区支持,哪个拿出来都能聊半天。
本帖最后由 1Awesome1 于 2026-3-11 21:28 编辑
谢谢你提供的详细信息。
引用: anselduffet2026 发表于 2026-3-12 03:48 谢谢你提供的详细信息。
能为你提供帮助是我的荣幸