[原创] 树莓派CPU算力测试（下）

1Awesome1 2026-3-11 21:29 楼主

上篇我们把树莓派5B的底裤扒了个干净，单核153 GOPS（INT8）、四核611 GOPS的数据看着还挺唬人。

但光看一个板子没意思，得有参照物才知道这玩意儿到底啥水平。

正好手头还有一块RK3566的开发板和一台吃灰的树莓派4B，干脆一块儿拉出来溜溜，来个嵌入式板子算力大乱斗。

先看选手介绍

树莓派5B：博通BCM2712，4核Cortex-A76，主频2.4GHz，ARMv8架构，支持NEON和SVE（虽然SVE还没完全放开）

RK3566：瑞芯微家的，4核Cortex-A55，主频1.8GHz，同样是ARMv8，但定位偏中低端，常用于平板、NAS、智能屏这类设备

树莓派4B：博通BCM2711，4核Cortex-A72，主频1.5GHz（我这台是1.5版），算是上一代明星产品

三个板子都是4核心ARM，指令集都支持asimd（ARM的NEON SIMD扩展），但RK3566和树莓派5B还多了asimd_dp（支持INT8点积累加）和asimd_hp（支持FP16半精度）。树莓派4B就比较惨，只有基础的asimd。

实测数据走起

RK3566跑分

单线程：

双线程：

四线程：

对应结果我贴出来了，如下：

RK3566对应的结果

root@localhost:/home/lckfb/zzf/test/cpufp-master# ./cpufp --thread_pool=[0]
Number Threads: 1
Thread Pool Binding: 0
----------------------------------------------------------------
| Instruction Set | Core Computation        | Peak Performance |
| asimd_dp        | dp4a.vs(s32,s8,s8)      | 59.885 GOPS      |
| asimd_dp        | dp4a.vv(s32,s8,s8)      | 59.847 GOPS      |
| asimd_dp        | dp4a.vs(u32,u8,u8)      | 59.814 GOPS      |
| asimd_dp        | dp4a.vv(u32,u8,u8)      | 59.782 GOPS      |
| asimd_hp        | fmla.vs(fp16,fp16,fp16) | 29.889 GFLOPS    |
| asimd_hp        | fmla.vv(fp16,fp16,fp16) | 29.885 GFLOPS    |
| asimd           | fmla.vs(f32,f32,f32)    | 14.918 GFLOPS    |
| asimd           | fmla.vv(f32,f32,f32)    | 14.938 GFLOPS    |
| asimd           | fmla.vs(f64,f64,f64)    | 7.4674 GFLOPS    |
| asimd           | fmla.vv(f64,f64,f64)    | 7.4658 GFLOPS    |
----------------------------------------------------------------
root@localhost:/home/lckfb/zzf/test/cpufp-master# ./cpufp --thread_pool=[0-1]
Number Threads: 2
Thread Pool Binding: 0 1
----------------------------------------------------------------
| Instruction Set | Core Computation        | Peak Performance |
| asimd_dp        | dp4a.vs(s32,s8,s8)      | 118.29 GOPS      |
| asimd_dp        | dp4a.vv(s32,s8,s8)      | 118.25 GOPS      |
| asimd_dp        | dp4a.vs(u32,u8,u8)      | 118.11 GOPS      |
| asimd_dp        | dp4a.vv(u32,u8,u8)      | 118.03 GOPS      |
| asimd_hp        | fmla.vs(fp16,fp16,fp16) | 59.015 GFLOPS    |
| asimd_hp        | fmla.vv(fp16,fp16,fp16) | 58.969 GFLOPS    |
| asimd           | fmla.vs(f32,f32,f32)    | 29.503 GFLOPS    |
| asimd           | fmla.vv(f32,f32,f32)    | 29.393 GFLOPS    |
| asimd           | fmla.vs(f64,f64,f64)    | 14.723 GFLOPS    |
| asimd           | fmla.vv(f64,f64,f64)    | 14.722 GFLOPS    |
----------------------------------------------------------------
root@localhost:/home/lckfb/zzf/test/cpufp-master# ./cpufp --thread_pool=[0-3]
Number Threads: 4
Thread Pool Binding: 0 1 2 3
----------------------------------------------------------------
| Instruction Set | Core Computation        | Peak Performance |
| asimd_dp        | dp4a.vs(s32,s8,s8)      | 234.72 GOPS      |
| asimd_dp        | dp4a.vv(s32,s8,s8)      | 234.22 GOPS      |
| asimd_dp        | dp4a.vs(u32,u8,u8)      | 234.24 GOPS      |
| asimd_dp        | dp4a.vv(u32,u8,u8)      | 233.9 GOPS       |
| asimd_hp        | fmla.vs(fp16,fp16,fp16) | 114.42 GFLOPS    |
| asimd_hp        | fmla.vv(fp16,fp16,fp16) | 116.82 GFLOPS    |
| asimd           | fmla.vs(f32,f32,f32)    | 58.365 GFLOPS    |
| asimd           | fmla.vv(f32,f32,f32)    | 58.332 GFLOPS    |
| asimd           | fmla.vs(f64,f64,f64)    | 29.125 GFLOPS    |
| asimd           | fmla.vv(f64,f64,f64)    | 29.147 GFLOPS    |
----------------------------------------------------------------

树莓派4B跑分

单线程：

双线程：

四线程：

树莓派4B对应的结果


zzf@zzf:~/test/cpufp-master $ ./cpufp --thread_pool=[0]
Number Threads: 1
Thread Pool Binding: 0
-------------------------------------------------------------
| Instruction Set | Core Computation     | Peak Performance |
| asimd           | fmla.vs(f32,f32,f32) | 14.373 GFLOPS    |
| asimd           | fmla.vv(f32,f32,f32) | 14.369 GFLOPS    |
| asimd           | fmla.vs(f64,f64,f64) | 7.1841 GFLOPS    |
| asimd           | fmla.vv(f64,f64,f64) | 7.1834 GFLOPS    |
-------------------------------------------------------------
zzf@zzf:~/test/cpufp-master $ ./cpufp --thread_pool=[0-1]
Number Threads: 2
Thread Pool Binding: 0 1
-------------------------------------------------------------
| Instruction Set | Core Computation     | Peak Performance |
| asimd           | fmla.vs(f32,f32,f32) | 28.742 GFLOPS    |
| asimd           | fmla.vv(f32,f32,f32) | 28.742 GFLOPS    |
| asimd           | fmla.vs(f64,f64,f64) | 14.377 GFLOPS    |
| asimd           | fmla.vv(f64,f64,f64) | 14.373 GFLOPS    |
-------------------------------------------------------------
zzf@zzf:~/test/cpufp-master $ ./cpufp --thread_pool=[0-3]
Number Threads: 4
Thread Pool Binding: 0 1 2 3
-------------------------------------------------------------
| Instruction Set | Core Computation     | Peak Performance |
| asimd           | fmla.vs(f32,f32,f32) | 57.013 GFLOPS    |
| asimd           | fmla.vv(f32,f32,f32) | 57.051 GFLOPS    |
| asimd           | fmla.vs(f64,f64,f64) | 28.546 GFLOPS    |
| asimd           | fmla.vv(f64,f64,f64) | 28.517 GFLOPS    |
-------------------------------------------------------------

横向对比（树莓派5B数据从上篇搬过来）

为了看得清楚，我把三个板子的关键数据拉个表：

板子	测试模式	INT8 (GOPS)	FP16 (GFLOPS)	FP32 (GFLOPS)
树莓派5B	单线程	153	76.6	38.2
	双线程	306	153	76.6
	四线程	611	304	152
RK3566	单线程	59.8	29.8	14.9
	双线程	118	59.0	29.5
	四线程	234	114	58.3
树莓派4B	单线程	不支持	不支持	14.3
	双线程	不支持	不支持	28.7
	四线程	不支持	不支持	57.0

我们结合之前的文章中的CPU跑分进行分析（使用coremark进行的，这个系列的前几篇文章，需要的可以去我主页看看）

关键性能指标对比

对比项	树莓派5B	树莓派4B	泰山派 RK3566
CoreMark总分	17834.85	9513.92	6636.11
性能相对比	100%	53.3%	37.2%
单核效率比	100%	70.8%	49.4%
总测试时间	16.821s	11.562s	16.576s
迭代次数/秒	17834.85	9513.92	6636.11
架构代际	Cortex-A76	Cortex-A72	Cortex-A55

聊点实在的

数据都摆出来了，咱得唠唠这背后代表了啥。不然光看一堆数字，跟看天书没啥区别。

1. 树莓派5B：性能真神

先看CPUFP的FP32浮点——这是科学计算和传统 workloads 的硬指标。5B单核38.2 GFLOPS，四核152 GFLOPS；4B单核14.3，四核57。这一对比，5B正好是4B的2.6倍左右。

再看CoreMark总分，5B的17834对着4B的9513，差了将近一倍。单核效率比更是直接显示：A76比A72高了30%的IPC（每时钟指令数）。

这说明啥？说明博通这次没挤牙膏。Cortex-A76对比A72，架构层面的改进是实打实的——更好的分支预测、更大的缓存、更宽的执行流水线。再加上主频从1.5GHz拉到2.4GHz，双重buff叠满，性能翻倍不奇怪。

2. RK3566：性价比选手，但别指望越级打怪

看CPUFP数据，RK3566单核14.9 GFLOPS、四核58.3 GFLOPS，跟树莓派4B几乎贴脸——甚至还高了那么一丢丢。

但CoreMark就露馅了：4B跑了9513分，RK3566只有6636，差了30%多。

为啥浮点差不多，综合性能差这么多？因为CoreMark不光考浮点，还考整数运算、分支预测、内存子系统这些。Cortex-A55本身就是个低功耗核心，设计目标是省电不是拼性能，缓存和流水线都比A72精简不少。再加上主频1.8GHz对1.5GHz的优势，被架构短板给抵消了。

所以结论是：RK3566的CPU性能，跟树莓派4B互有胜负但整体略输，跟5B就别比了——那是两个世界的物种（性能方面是大神与菜鸟，毕竟RK3566跑Ubuntu桌面都卡。。。）。

3. 树莓派4B：老将的体面

57 GFLOPS的FP32、9513的CoreMark，放今天看确实不算亮眼。但你要想，这是2019年的设计，用28nm工艺（后来改14nm但架构没变），硬是撑到了现在还能打。

而且别忘了，4B的FP32浮点跟RK3566五五开，CoreMark还稳压一头。一个五六年前的架构，能跟2021年发布的A55打得有来有回，A72当年确实是颗好芯（比较在当年也是很火的，就算放到现在也是很多人DIY的首选）。但短板也很明显：没有INT8加速。现在AI推理主流玩法都是量化到INT8，4B只能硬扛FP32，效率天然吃亏。跑个MobileNet可能还行，想玩YOLO或者大模型，还是比较吃力，纯CPU推理还是比较卡的。

4. INT8才是AI时代的硬通货

看CPUFP的INT8数据，5B单核153 GOPS、四核611 GOPS；RK3566单核59.8、四核234。4B直接不支持。

这就很有意思了：RK3566的INT8性能，正好是5B的38%左右——跟CoreMark的总分比例（37.2%）几乎一模一样。

这说明啥？说明在实际的AI推理场景里，RK3566大概就是5B的三分之一到四成的水平。再加上5B主频更高、缓存更大，实际跑模型可能差距还会拉大。

至于4B，没有INT8加速，跑量化模型要么转成FP32（慢4倍），要么干脆跑不动。这就是为啥现在说“树莓派玩AI”，基本都默认5B起步——4B是真的老了。

这仅是通过本次实验数据下的一个最最最普通的主观判断，如果大神们有其他看法可以在评论区一起探讨一下，十分欢迎

总结一下，这三块板子怎么选

树莓派5B：性能天花板，预算够就上

优点：CPU性能碾压另外俩，INT8加速到位，AI友好
缺点：贵（我的8G版本现在需要1000），难买（经常缺货）
适合人群：想玩AI、想跑服务、想折腾但不想将就的

树莓派4B：老当益壮，但别抱太高期望

优点：生态完善、文档多、稍微便宜（8G版本800+）
缺点：没INT8加速，跑AI费劲，性能明显落后
适合人群：手头已经有4B的、跑轻量服务的、不碰AI的

RK3566：性价比之选，但得会玩

优点：便宜（200-300，因为DDR变贵了，现在可以不止了）、自带NPU、国产板子可玩性高
缺点：CPU性能垫底、生态不如树莓派、需要自己折腾
适合人群：预算有限、愿意折腾NPU、想做特定嵌入式项目的

最后的碎碎念

测完这一圈，最大的感受是：ARM板子这几年的进步，其实比我们想象的要快。

五年前，树莓派3B+还在用A53，跑个FP32浮点也就个位数GFLOPS。现在一块几百块的板子，INT8算力能干到600+ GOPS，能跑YOLO、能玩大模型（虽然慢）、能干的事儿多了去了。

技术的下放速度，确实比我们感知的要快。只不过平时天天用，反而不觉得有啥变化。偶尔拉出老板子跑一跑，才发现——哦，原来已经走了这么远。不过RK3566在国产里面也算不上高性能，希望我下次可以有机会体验到更高性能的（RK3588，RK3576...）开发板，这样评测就可以更加彻底了。

但说实话，跑分这东西，永远只是个参考。同样的芯片，不同的散热条件、不同的系统优化、不同的编译选项，跑出来可能天差地别。我这边的测试环境也就图一乐，真较真的话，还得看实际跑应用的体验。再说了，选板子这事儿，从来都不是只看性能——价格、生态、功耗、社区支持，哪个拿出来都能聊半天。

本帖最后由 1Awesome1 于 2026-3-11 21:28 编辑

回复评论（2）

沙发 anselduffet2026

谢谢你提供的详细信息。

点赞 (1) 2026-3-12 03:48

板凳 1Awesome1

引用: anselduffet2026 发表于 2026-3-12 03:48 谢谢你提供的详细信息。

能为你提供帮助是我的荣幸

点赞 2026-3-12 10:12