历史上的今天
返回首页

历史上的今天

今天是:2025年01月13日(星期一)

正在发生

2020年01月13日 | ARM NEON 编程系列2 - 基本指令集

2020-01-13 来源:eefocus

前言

本系列博文用于介绍ARM CPU下NEON指令优化。


博文github地址:github

相关代码github地址:github

NEON指令集

主流支持目标平台为ARM CPU的编译器基本都支持NEON指令。可以通过在代码中嵌入NEON汇编来使用NEON,但是更加常见的方式是通过类似C函数的NEON Instrinsic来编写NEON代码。就如同NEON hello world一样。NEON Instrinsic是编译器支持的一种buildin类型和函数的集合,基本涵盖NEON的所有指令,通常这些Instrinsic包含在arm_neon.h头文件中。

本文以android-ndk-r11c中armv7的arm_neon.h为例,讲解NEON的指令类型。


寄存器

ARMV7架构包含:


16个通用寄存器(32bit),R0-R15

16个NEON寄存器(128bit),Q0-Q15(同时也可以被视为32个64bit的寄存器,D0-D31)

16个VFP寄存器(32bit),S0-S15


NEON和VFP的区别在于VFP是加速浮点计算的硬件不具备数据并行能力,同时VFP更尽兴双精度浮点数(double)的计算,NEON只有单精度浮点计算能力。更多请参考stackoverflow:neon vs vfp


基本数据类型

64bit数据类型,映射至寄存器即为D0-D31

相应的c/c++语言类型(stdint.h或者csdtint头文件中类型)在注释中说明。

//typedef int8_t[8] int8x8_t;

typedef __builtin_neon_qi int8x8_t  __attribute__ ((__vector_size__ (8)));

//typedef int16_t[4] int16x4_t;

typedef __builtin_neon_hi int16x4_t __attribute__ ((__vector_size__ (8)));

//typedef int32_t[2] int32x2_t;

typedef __builtin_neon_si int32x2_t __attribute__ ((__vector_size__ (8)));

//typedef int64_t[1] int64x1_t;

typedef __builtin_neon_di int64x1_t;

//typedef float16_t[4] float16x4_t;

//(注:该类型为半精度,在部分新的CPU上支持,c/c++语言标注中尚无此基本数据类型)

typedef __builtin_neon_hf float16x4_t   __attribute__ ((__vector_size__ (8)));

//typedef float32_t[2] float32x2_t;

typedef __builtin_neon_sf float32x2_t   __attribute__ ((__vector_size__ (8)));

//poly8以及poly16类型在常用算法中基本不会使用

//详细解释见:

//http://stackoverflow.com/questions/22224282/arm-neon-and-poly8-t-and-poly16-t

typedef __builtin_neon_poly8 poly8x8_t  __attribute__ ((__vector_size__ (8)));

typedef __builtin_neon_poly16 poly16x4_t    __attribute__ ((__vector_size__ (8)));

#ifdef __ARM_FEATURE_CRYPTO

typedef __builtin_neon_poly64 poly64x1_t;

#endif

//typedef uint8_t[8] uint8x8_t;

typedef __builtin_neon_uqi uint8x8_t    __attribute__ ((__vector_size__ (8)));

//typedef uint16_t[4] uint16x4_t;

typedef __builtin_neon_uhi uint16x4_t   __attribute__ ((__vector_size__ (8)));

//typedef uint32_t[2] uint32x2_t;

typedef __builtin_neon_usi uint32x2_t   __attribute__ ((__vector_size__ (8)));

//typedef uint64_t[1] uint64x1_t;

typedef __builtin_neon_udi uint64x1_t;

128bit数据类型,映射至寄存器即为Q0-Q15

相应的c/c++语言类型(stdint.h或者csdtint头文件中类型)在注释中说明。

//typedef int8_t[16] int8x16_t;

typedef __builtin_neon_qi int8x16_t __attribute__ ((__vector_size__ (16)));

//typedef int16_t[8] int16x8_t;

typedef __builtin_neon_hi int16x8_t __attribute__ ((__vector_size__ (16)));

//typedef int32_t[4] int32x4_t;

typedef __builtin_neon_si int32x4_t __attribute__ ((__vector_size__ (16)));

//typedef int64_t[2] int64x2_t;

typedef __builtin_neon_di int64x2_t __attribute__ ((__vector_size__ (16)));

//typedef float32_t[4] float32x4_t;

typedef __builtin_neon_sf float32x4_t   __attribute__ ((__vector_size__ (16)));

//poly8以及poly16类型在常用算法中基本不会使用

//详细解释见:

//http://stackoverflow.com/questions/22224282/arm-neon-and-poly8-t-and-poly16-t

typedef __builtin_neon_poly8 poly8x16_t __attribute__ ((__vector_size__ (16)));

typedef __builtin_neon_poly16 poly16x8_t    __attribute__ ((__vector_size__ (16)));

#ifdef __ARM_FEATURE_CRYPTO

typedef __builtin_neon_poly64 poly64x2_t    __attribute__ ((__vector_size__ (16)));

#endif

//typedef uint8_t[16] uint8x16_t;

typedef __builtin_neon_uqi uint8x16_t   __attribute__ ((__vector_size__ (16)));

//typedef uint16_t[8] uint16x8_t;

typedef __builtin_neon_uhi uint16x8_t   __attribute__ ((__vector_size__ (16)));

//typedef uint32_t[4] uint32x4_t;

typedef __builtin_neon_usi uint32x4_t   __attribute__ ((__vector_size__ (16)));

//typedef uint64_t[2] uint64x2_t;

typedef __builtin_neon_udi uint64x2_t   __attribute__ ((__vector_size__ (16)));

typedef float float32_t;

typedef __builtin_neon_poly8 poly8_t;

typedef __builtin_neon_poly16 poly16_t;

#ifdef __ARM_FEATURE_CRYPTO

typedef __builtin_neon_poly64 poly64_t;

typedef __builtin_neon_poly128 poly128_t;

#endif

结构化数据类型

下面这些数据类型是上述基本数据类型的组合而成的结构化数据类型,通常为被映射到多个寄存器中。


typedef struct int8x8x2_t

{

  int8x8_t val[2];

} int8x8x2_t;

...

//省略...

...

#ifdef __ARM_FEATURE_CRYPTO

typedef struct poly64x2x4_t

{

  poly64x2_t val[4];

} poly64x2x4_t;

#endif

基本指令集

NEON指令按照操作数类型可以分为正常指令、宽指令、窄指令、饱和指令、长指令。


正常指令:生成大小相同且类型通常与操作数向量相同到结果向量。

长指令:对双字向量操作数执行运算,生产四字向量到结果。所生成的元素一般是操作数元素宽度到两倍,并属于同一类型。L标记,如VMOVL。

宽指令:一个双字向量操作数和一个四字向量操作数执行运算,生成四字向量结果。W标记,如VADDW。

窄指令:四字向量操作数执行运算,并生成双字向量结果,所生成的元素一般是操作数元素宽度的一半。N标记,如VMOVN。

饱和指令:当超过数据类型指定到范围则自动限制在该范围内。Q标记,如VQSHRUN

NEON指令按照作用可以分为:加载数据、存储数据、加减乘除运算、逻辑AND/OR/XOR运算、比较大小运算等,具体信息参考资料[1]中附录C和附录D部分。


常用的指令集包括:


初始化寄存器

寄存器的每个lane(通道)都赋值为一个值N

Result_t vcreate_type(Scalar_t N)

Result_t vdup_type(Scalar_t N)

Result_t vmov_type(Scalar_t N)

lane(通道)在下面有说明。


加载内存数据进寄存器

间隔为x,加载数据进NEON寄存器

Result_t vld[x]_type(Scalar_t* N)

Result_t vld[x]q_type(Scalar_t* N)

间隔为x,加载数据进NEON寄存器的相关lane(通道),其他lane(通道)的数据不改变


Result_t vld[x]_lane_type(Scalar_t* N,Vector_t M,int n)

Result_t vld[x]q_lane_type(Scalar_t* N,Vector_t M,int n)

从N中加载x条数据,分别duplicate(复制)数据到寄存器0-(x-1)的所有通道


Result_t vld[x]_dup_type(Scalar_t* N)

Result_t vld[x]q_dup_type(Scalar_t* N)

lane(通道):比如一个float32x4_t的NEON寄存器,它具有4个lane(通道),每个lane(通道)有一个float32的值,因此 c++ float32x4_t dst = vld1q_lane_f32(float32_t* ptr,float32x4_t src,int n=2) 的意思就是先将src寄存器的值复制到dst寄存器中,然后从ptr这个内存地址中加载第3个(lane的index从0开始)float到dst寄存器的第3个lane(通道中)。最后dst的值为:{src[0],src[1],ptr[2],src[3]}。

间隔:交叉存取,是ARM NEON特有的指令,比如 c++ float32x4x3_t = vld3q_f32(float32_t* ptr) ,此处间隔为3,即交叉读取12个float32进3个NEON寄存器中。3个寄存器的值分别为:{ptr[0],ptr[3],ptr[6],ptr[9]},{ptr[1],ptr[4],ptr[7],ptr[10]},{ptr[2],ptr[5],ptr[8],ptr[11]}。

存储寄存器数据到内存

间隔为x,存储NEON寄存器的数据到内存中

void vstx_type(Scalar_t* N)

void vstxq_type(Scalar_t* N)

间隔为x,存储NEON寄存器的相关lane(通道)到内存中


Result_t vst[x]_lane_type(Scalar_t* N,Vector_t M,int n)

Result_t vst[x]q_lane_type(Scalar_t* N,Vector_t M,int n)

读取/修改寄存器数据

读取寄存器第n个通道的数据

Result_t vget_lane_type(Vector_t M,int n)

读取寄存器的高/低部分到新的寄存器中,数据变窄(长度减半)。


Result_t vget_low_type(Vector_t M)

Result_t vget_high_type(Vector_t M)

返回在复制M的基础上设置通道n为N的寄存器数据


Result_t vset_lane_type(Scalar N,Vector_t M,int n)

寄存器数据重排

从寄存器M中取出后n个通道的数据置于低位,再从寄存器N中取出x-n个通道的数据置于高位,组成一个新的寄存器数据。

Result_t vext_type(Vector_t N,Vector_t M,int n)

Result_t vextq_type(Vector_t N,Vector_t M,int n)

其他数据重排指令还有:


vtbl_tyoe,vrev_type,vtrn_type,vzip_type,vunzip_type,vcombine ...

等以后有时间一一讲解。


类型转换指令

强制重新解释寄存器的值类型,从SrcType转化为DstType,其内部实际值不变且总的字节数不变,举例:vreinterpret_f32_s32(int32x2_t),从int32x2_t转化为float32x2_t。

vreinterpret_DstType_SrcType(Vector_t N)

算数运算指令

[普通指令] 普通加法运算 res = M+N

Result_t vadd_type(Vector_t M,Vector_t N)

Result_t vaddq_type(Vector_t M,Vector_t N)

[长指令] 变长加法运算 res = M+N,为了防止溢出,一种做法是使用如下指令,加法结果存储到长度x2的寄存器中,如:vuint16x8_t res = vaddl_u8(uint8x8_t M,uint8x8_t N)。


Result_t vaddl_type(Vector_t M,Vector_t N)

[宽指令] 加法运算 res = M+N,第一个参数M宽度大于第二个参数N。


Result_t vaddw_type(Vector_t M,Vector_t N)

[普通指令] 加法运算 res = trunct(M+N)(溢出则截断)之后向右平移1位,即计算M和N的平均值


Result_t vhadd_type(Vector_t M,Vector_t N)

[普通指令] 加法运算 res = round(M+N)(溢出则循环)之后向右平移1位,即计算M和N的平均值


Result_t vrhadd_type(Vector_t M,Vector_t N)

[饱和指令] 饱和加法运算 res = st(M+N),如:vuint8x8_t res = vqadd_u8(uint8x8_t M,uint8x8_t N),res超出int8_t的表示范围(0,255),比如256,则设为255.


Result_t vqadd_type(Vector_t M,Vector_t N)

[窄指令] 加法运算 res = M+N,结果比参数M/N的长度小一半,如 uint8x8_t res = vaddhn_u16(uint16x8_t M,uint16x8_t N)


Result_t vaddhn_type(Vector_t M,Vector_t N)

[普通指令] 减法运算 res = M-N


Result_t vsub_type(Vector_t M,Vector_t N)

[普通指令] 乘法运算 res = M*N


Result_t vmul_type(Vector_t M,Vector_t N)

Result_t vmulq_type(Vector_t M,Vector_t N)

[普通指令] 乘&加法运算 res = M+N*P


Result_t vmla_type(Vector_t M,Vector_t N,Vector_t P)

Result_t vmlaq_type(Vector_t M,Vector_t N,Vector_t P)

[普通指令] 乘&减法运算 res = M-N*P


Result_t vmls_type(Vector_t M,Vector_t N,Vector_t P)

Result_t vmlsq_type(Vector_t M,Vector_t N,Vector_t P)

类似加法运算,减法和乘法运算也有一系列变种...


数据处理指令

[普通指令] 计算绝对值 res=abs(M)

Result_t vabs_type(Vector_t M)

[普通指令] 计算负值 res=-M


Result_t vneg_type(Vector_t M)

[普通指令] 计算最大值 res=max(M,N)


Result_t vmax_type(Vector_t M,Vector_t N)

[普通指令] 计算最小值 res=min(M,N)


Result_t vmin_type(Vector_t M,Vector_t N)

...


比较指令

[普通指令] 比较是否相等 res=mask(M == N)

Result_t vceg_type(Vector_t M,Vector_t N)

[普通指令] 比较是否大于或等于 res=mask(M >= N)


Result_t vcge_type(Vector_t M,Vector_t N)

[普通指令] 比较是否大于 res=mask(M > N)


Result_t vcgt_type(Vector_t M,Vector_t N)

[普通指令] 比较是否小于或等于 res=mask(M <= N)


Result_t vcle_type(Vector_t M,Vector_t N)

[普通指令] 比较是否小于 res=mask(M < N)


Result_t vclt_type(Vector_t M,Vector_t N)

...


归约指令

[普通指令] 归约加法,M和N内部的元素各自相加,最后组成一个新的结果

Result_t vpadd_type(Vector_t M,Vector_t N)

[普通指令] 归约最大比较,M和N内部的元素比较得出最大值,最后组成一个新的结果


Result_t vpmax_type(Vector_t M,Vector_t N)

[普通指令] 归约最小比较,M和N内部的元素比较得出最小值,最后组成一个新的结果


Result_t vpmin_type(Vector_t M,Vector_t N)

...


参考

DEN0018A_neon_programmers_guide

DDI0487A_f_armv8_arm

DEN0013D_cortex_a_series_PG

Coding for NEON - Part 1: Load and Stores

Coding for NEON - Part 2: Dealing With Leftovers

Coding for NEON - Part 3: Matrix Multiplication

Coding for NEON - Part 4: Shifting Left and Right

Coding for NEON - Part 5: Rearranging Vectors


推荐阅读

史海拾趣

无锡友达公司的发展小趣事

无锡友达电子有限公司自2002年成立以来,就致力于半导体集成电路设计领域。在初创阶段,公司凭借对高性能模拟和数模混合集成电路的深刻理解,迅速推出了多款性能优异的功放、电源等系统方案。这些产品在电视机、音响设备等领域的广泛应用,为公司赢得了市场的初步认可。通过不断的技术创新,无锡友达逐渐在电子行业崭露头角。

上海双岭电子(Double-peak)公司的发展小趣事

随着市场的不断扩大,双岭电子逐渐意识到品质对于企业长远发展的重要性。因此,公司投入大量资源加强品质管理,建立了完善的质量检测体系,并对全体员工进行品质意识培训。通过不懈的努力,双岭电子的产品质量得到了显著提升,赢得了客户的广泛赞誉。同时,公司还积极参与国际标准化组织的认证工作,为进一步提升品牌影响力奠定了基础。

Fischer Elektronik公司的发展小趣事

Fischer Elektronik公司成立于1969年,是德国在高性能散热器和半导体制冷领域的领先制造商。成立之初,公司专注于研发和生产电子元器件的关键部件,如散热器和连接器,以满足当时快速增长的电子行业对高效散热解决方案的需求。凭借其精湛的工艺和严格的质量控制,Fischer Elektronik迅速在市场中站稳脚跟,并开始在仪器仪表、通讯/网络、交通/汽车和工业/自动化等领域展露头角。

ARCOTRONICS公司的发展小趣事

随着技术实力的不断提升,ARCOTRONICS公司开始将目光投向国际市场。公司制定了一系列国际化战略,积极参与国际电子展会,与全球各地的合作伙伴建立紧密的合作关系。通过不断拓展市场,ARCOTRONICS公司的产品逐渐在国际上获得了广泛的认可,公司也因此成为了全球电子行业的重要参与者。

Advanced Microelectronic Products Inc公司的发展小趣事

在电子行业竞争日益激烈的背景下,AMP公司面临着来自同行的巨大压力。为了应对这一挑战,公司进行了战略调整,将重心转向高端电子产品的研发和生产。通过不断提升产品性能和品质,AMP公司成功打造了多个高端品牌,并在细分市场中取得了显著优势。此外,公司还积极拓展新的应用领域,为未来发展奠定了坚实基础。

Fedco_Batteries公司的发展小趣事

随着公司业务的不断拓展,Fedco_Batteries始终将产品质量放在首位。公司引进了先进的生产设备和检测设备,建立了严格的质量管理体系。每一块电池在出厂前都要经过多道严格的质量检测,确保产品的稳定性和可靠性。这种对品质的坚持,让Fedco_Batteries的电池在市场上赢得了良好的口碑,越来越多的客户选择了他们的产品。

问答坊 | AI 解惑

[引]avrADC转换实验-ADC噪声抑制模式

/* ******************************************************** * 文件: adc.c * 功能: ADC转换实验-ADC噪声抑制模式 * 工具: WinAVR20050214(AVR-GCC) * mcu : Atmega8 * 时钟: 外部晶体8MHz * 日期: 2005年10月25 ...…

查看全部问答>

如何开始DSP编程[精]

如何开始DSP编程 这本书,从安装CCS 软件开始,一步一步教你如何开始DSP编程, 并给出了相应操作的图示,是一本难得的好书 对初学者来说,可以以最快的速度入门。 …

查看全部问答>

工程师出身的还是销售、市场出身的员工更容易做到公司上层? 欢迎加入讨论!!

工程师出身的还是销售、市场出身的员工更容易做到公司上层? 欢迎加入讨论!! 1.工程师会有更大的上升空间,因为从最下层的工程师做上来的员工对公司的产品线会有更加深刻的认识,技术上的优势 使他们更能了解更深层次的市场动向,从而对 ...…

查看全部问答>

悬挂运动控制系统

本帖最后由 paulhyde 于 2014-9-15 09:02 编辑 往届题目:悬挂运动控制系统,包括完整的硬件电路,程序代码以及报告~~希望能给你帮助~~  …

查看全部问答>

贴片IC的焊接

贴片元件的焊接并不容易,特别是长了蜈蚣脚的贴片IC。以下文字和图片转载自www.hifidiy.net,让我们来看看28脚的贴片IC是怎么用电烙铁焊上去的。 首先来张全部焊接点的PCB图 这是焊接贴片的必须工具 这个是准备焊接的DD 夹一个的姿势 先 ...…

查看全部问答>

如何在EVC中将字符串转换为十六进制数组???

如何在EVC中将字符串转换为十六进制数组???…

查看全部问答>

如何降低在Xilinx 编译时的Peak Memory Usage?

    Peak Memory Usage好象是编译VHDL时使用到的内存.我刚用Xilinx 的,编了个简单的只是对几个信号进行初始化,就用了120,GATE COUNT才48.而有个资料里的GATE COUNT是414,573.Peak Memory Usage才86 MB .不知道需要如何设置什么参数? &nb ...…

查看全部问答>

s3c2410触摸屏和AD转化问题(急)

板子上其中两路已经用于触摸屏,我想用s3c2410有自带的其它6路AD转换来采集,要怎么做?请详细说明下,谢谢. 之前内核已经加载了触摸屏的驱动,所以在动态加载AD驱动时就话出错(因为这两个是占用同一个中断号),网上查询就说用轮询,请哪位大侠详细说明 ...…

查看全部问答>

lm3s怎样和5V器件的TTL电平接口呢

以前搞51,现在想学习lm3s,Lm3s是用的3.3v.请问怎样和5V器件的TTL电平接口呢?…

查看全部问答>