历史上的今天
返回首页

历史上的今天

今天是:2025年03月10日(星期一)

正在发生

2018年03月10日 | ARM程序优化及其在嵌入式TCP/IP协议实现中的应用介绍

2018-03-10 来源:eefocus

    随着嵌入式技术的发展,人们对系统的智能化、小型化的要求也越来越高。基于ARM结构的微处理器以其高性能、低功耗、低价格等方面的优势被广泛应用于各种电子产品,特别是一些高端的嵌入式控制应用中,例如移动电话、工业控制、网络通信等方面。ARM技术具有很好的性能和功效,其合作伙伴包括许多世界顶级的半导体公司。可以说ARM技术几乎无处不在。

    TCP/IP互联网协议族在全世界范围内已经成为开放系统互联的协议,它提供了很好的交互操作能力,可兼容多种网络技术。嵌入式技术与TCP/IP技术的结合已经展现出强劲的发展势头和巨大的市场潜力。如何开发面向 ARM的高效代码,尤其是提高类似于TCP/IP协议栈等基础性的软件模块的执行效率已成为每个从事基于ARM的嵌入式系统开发人员必须思考的问题。

 

    面向ARM的程序优化

    开发高效的程序涉及很多方面,包括优秀的算法实现、良好的编程风格以及针对目标的程序优化。程序优化是指软件编程基本结束后,利用软件开发工具对程序代码进行调整和改进,使程序能够更加充分地利用有限的软硬件资源,缩减代码尺寸,提高运行效率的过程。

    在实际的程序设计过程中,程序优化的两个目标(运行速度和代码大小)往往是互相矛盾的。为了提高程序运行效率,就要以牺牲存储空间、增加代码量为代价;而为了减少程序代码量、压缩存储器空间,可能又要以降低程序运行效率为代价。按照优化的侧重点不同,程序优化可分为运行速度优化和代码尺寸优化。随着微电子技术的不断发展,存储空间已不再是制约系统集成的主要因素。面向ARM的程序优化主要是讨论如何在了解汇编语言和编译规则的基础上编写出能够高效运行的C语言程序。

    作为高性能、低功耗的RISC芯片,ARM的C语言编译器已经非常成熟。尽管如此,在编写面向ARM的C源程序时,对程序进行必要的优化仍是提高程序运行效率的有效途径。以下是一些在实现TCP/IP协议过程中用到的比较典型的优化原则和方法,这些技术也适用于其他RISC

    指令集微处理器。

    变量定义

    32位 ARM处理器的指令集支持有符号/无符号的8位、16位、32位整型和浮点型变量类型,这不仅可以节省代码,而且可以提高代码的运行效率。按照作用范围的不同,C语言的变量可以划分为全局变量和局部变量。ARM编译器通常将全局变量定位在存储空间中,局部变量分配给通用寄存器。

    在全局变量声明时,需要考虑最佳的存储器布局,使得各种类型的变量能以32位的空间位基准对齐,从而减少不必要的存储空间浪费,提高运行效率。如:

   49.jpg?imageView2/2/w/550

    这里定义的四个变量形式相同,只是次序不同,却导致了在最终映像中不同的数据布局,如图1所示。显然第二种方式节约了更多的存储器空间。

    50.jpg?imageView2/2/w/550

    对于局部变量,要尽量不使用32位以外的变量类型。当一个函数的局部变量数目不多时,编译器会把局部变量分配给内部寄存器,每个变量占一个32位的寄存器。这样short和char类型的变量不但起不到节省空间的作用,反而会耗费更多的指令周期来完成short和char的存取操作。C语言代码及其编译结果如下所示:

    51.jpg?imageView2/2/w/550

    条件执行

    条件执行是程序中必不可少的基本操作。典型的条件执行代码序列是由一个比较指令开始的,接下来是一系列相关的执行语句。ARM中的条件执行是通过对运算结果标志位进行判断实现的,一些带标志位的运算结果中,N和Z标志位的结果与比较语句的结果相同。尽管在C语言中没有带标志位的指令,但在面向ARM的C语言程序中,如果运算结果是与0作比较,编译器会移去比较指令,通过一条带标志位指令实现运算和判断。例如:

    52.jpg?imageView2/2/w/550

    因此,面向ARM的C语言程序设计的条件判断应当尽量采用“与0比较”的形式。C语言中,条件执行语句大多数应用在if条件判断中,也有应用在复杂的关系运算(<,==,>等)及位操运算(&&,!,and等)中的。面向ARM的C语言程序设计中,有符号型变量应尽量采取x& lt;0、x>=0、x==0、x!=0的关系运算;对于无符号型的变量应采用x==0、x!=0(或者x>0)关系运算符。编译器都可以对条件执行进行优化。

 

    对于程序设计中的条件语句,应尽量简化if和else判断条件。与传统的C语言程序设计有所不同,面向ARM的C语言程序设计中,关系表述中类似的条件应该集中在一起,使编译器能够对判断条件进行优化。

    循环

    循环是程序设计中非常普遍的结构。在嵌入式系统中,微处理器执行时间在循环中运行的比例较大,因此关注循环的执行效率是非常必要的。除了在保证系统正确工作的前提下尽量简化核循环体的过程以外,正确和高效的循环结束标志条件也非常重要。按照以上所述的“与0比较”原则,程序中的循环结束条件应该是“减到0” 的循环,结束条件尽量简单。应尽可能在关键循环中采取上述的判断形式,这样可以在关键循环中省去一些不必要的比较语句,减少不必要的开销,提高性能。如下面二个示例:

    53.jpg?imageView2/2/w/550

    fact1 和fact2中通过定义局部变量a来减少对n的load/store操作。fact2函数遵循了“与0比较”原则,省去了fact1编译结果中的比较指令,并且,变量n在整个循环过程不参与运算,也不需要保存。由于省去了寄存器分配,从而给其他部分程序的编译带来了方便,提高了运行效率。

    “减到0”的方法同样适用于while和do语句。如果一个循环体只循环几次,可以用展开的方法提高运行效率。当循环展开后,不需要循环计数器和相关的跳转语句,虽然代码的长度有所增加,但是得到了更高的执行效率。

    除法和求余

    ARM 指令集中没有提供整数的除法,除法是由C语言函数库中的代码(符号型_rt_SDIv和无符号型的_rt_udiv)实现的。一个32位数的除法需要 20~140个周期,依赖于分子和分母的取值。除法操作所用的时间是一个时间常量乘每一位除法所需要的时间:

    Time(分子/分母)=C0+C1×log2(分子/分母)

    =C0+C1×(log2(分子)-log2(分母))

    由于除法的执行周期长,耗费的资源多,程序设计中应当尽量避免使用除法。以下是一些避免调用除法的变通办法:

    (1)在某些特定的程序设计时,可以把除法改写为乘法。例如:(x/y)>z,在已知y是正数而且y×z是整数的情况下,就可以写为x>(z×y)。

    (2)尽可能使用2的次方作为除数,编译器使用移位操作完成除法,如128就比100更加适合。在程序设计中,使用无符号型的除法要快于符号型的除法。

    (3)使用求余运算的一个目的是为了按模计算,这样的操作有时可以使用if的判断语句来完成,考虑如下的应用:

    uiNTCounter1(uintcount)uintcounter2(uintcount)

    {{return(++count`);if(++count>=60)}count=0;

    return(count);}

    (4)对于一些特殊的除法和求余运算,采用查找表的方法也可以获得很好的运行效果。

    在除以某些特定的常数时,编写特定的函数完成此操作会比编译产生的代码效率高很多。ARM的C语言库中就有二个这样的符号型和无符号型数除以10的函数,用来完成十进制数的快速运算。在toolkit子目录的examplesexplaSMDiv.c和examplesthumbdiv.c文件中,有这二个函数的ARM和Thumb版本。

    面向ARM的程序优化在嵌入式TCP/IP协议实现中的应用

    笔者采用ATMEL公司的AT91RM9200微处理器,配合以太网物理层驱动芯片(DM9161)构建面向网络的嵌入式系统硬件平台,如图2所示。在此平台上,实现基于ARM微处理器的嵌入式TCP/IP协议处理。

   54.jpg?imageView2/2/w/550


    基于ARM的嵌入式系统直接面向以太网数据,典型的以太网数据封装格式如图3所示。根据以上的优化方法,在变量定义时需要考虑最佳的存储器布局,使得各种类型的变量能以32位的空间位基准对齐,对于功能函数中参加运算的数据应尽量采用32位的数据进行处理。

   54.jpg?imageView2/2/w/550

    嵌入式TCP/IP协议的实现通常采用Linux中的TCP/IP网络结构层次。TCP/IP协议实现网络层和控制层的ARP/RARP、IP、ICMP、 TCP、UDP等协议,直接为HTTP、SMTP、FTP、TELNET等这样的应用层协议提供支持。每个系统都需要具体定义应用层程序和协议软件之间的接口。

   55.jpg?imageView2/2/w/550

    协议处理的一般流程如图4所示。协议处理过程中需要多次条件判断,对IP地址和TCP数据的校验和处理循环比较是无法避免的,因此可以充分利用“与0比较”的条件判断和“减到0”的循环来优化程序设计。

   56.jpg?imageView2/2/w/550



    结束语

    除了以上所述的面向ARM的程序优化的原则和方法以外,C语言程序设计本身还有很多程序优化的方法。在上述基于ARM嵌入式系统硬件平台的系统开发过程中,充分利用面向ARM的C程序优化设计方法,可将TCP/IP协议处理模块的可执行代码减少5%以上,执行效率有所提高。实践证明,基于ARM的嵌入式系统设计中,在透彻了解ARM汇编指令的特性和编译过程的基础上,合理地使用程序优化的原则和方法可以有效地提高编译效率和代码执行效率。


推荐阅读

史海拾趣

高通(GENITOP)公司的发展小趣事

1964年,超霸电池的前身——金山工业集团在中国香港地区成立,最初专注于生产9伏干电池,以满足当时收音机等电子产品的需求。这一时期的超霸电池以其稳定的质量和可靠的性能迅速在市场上站稳脚跟。随着电子产品的普及,金山工业敏锐地捕捉到市场机遇,逐步扩大生产规模,为后续的发展奠定了坚实基础。

Comus_International公司的发展小趣事

Comus International深知,要想在竞争激烈的电子行业中立足,除了不断创新外,还需要注重产品质量和服务。因此,公司一直将质量和服务作为核心竞争力,不断提升产品质量和服务水平。正是这种对质量和服务的执着追求,使得Comus International在市场上赢得了客户的广泛认可和信赖。

DRI Relays Inc公司的发展小趣事

品质是企业的生命线。为了提升产品质量和客户满意度,DRI Relays Inc公司不断加强品质管理。公司建立了严格的质量检测体系,对原材料、生产过程和成品进行全面检测。同时,公司还注重员工素质的提升,定期开展培训和技能竞赛等活动,提高员工的技能水平和质量意识。这些措施有效地保证了公司产品的稳定性和可靠性,赢得了客户的信任和好评。

FlexiPanel公司的发展小趣事

FlexiPanel自成立以来,便深知技术创新对于企业发展的重要性。公司投入大量资源于RF模块的研发,特别是在蓝牙和ZigBee/IEEE802.15.4等无线通信技术领域取得了显著成果。通过不断优化模块性能、提升集成度,FlexiPanel成功推出了多款具有行业领先地位的产品,吸引了众多OEM厂商的关注。这些创新产品不仅满足了市场对于高性能、低功耗、易集成的RF模块需求,还帮助FlexiPanel在竞争激烈的电子市场中脱颖而出,实现了市场份额的快速增长。

Conxall公司的发展小趣事

Conxall公司的创始人李华,是一位在电子行业摸爬滚打多年的工程师。他深感市场上电子产品同质化严重,缺乏真正的创新。于是,他毅然决定创立Conxall公司,致力于研发具有独特功能和高性能的电子产品。李华带领团队日夜奋战,终于研发出了第一款具有自主知识产权的智能手机芯片,凭借其出色的性能和稳定性,迅速在市场上获得了认可。

CHONGQING PINGYANG ELECTRONICS CO.,LTD.公司的发展小趣事

在技术创新的基础上,重庆平洋电子有限公司积极拓展市场,不断提升品牌影响力。公司积极参与国内外各种电子展览和交流活动,与多家知名企业建立了战略合作关系。同时,公司还注重产品质量和售后服务,赢得了客户的信任和好评。随着品牌知名度的提升,公司的市场份额也逐年增长。

问答坊 | AI 解惑

书籍推荐《Multisim 10&Ultiboard 10原理图仿真与PCB设计》

本帖最后由 dontium 于 2015-1-23 11:49 编辑 前 言 2007年3月,美国国家仪器有限公司(National Instruments)推出了NI Circuit Design Sutie 10套件。本书结合设计实例介绍了套件中的Multisim 10和Ultiboard 10软件。与其他同类软件相比, ...…

查看全部问答>

观点:LED常被忽略的一大优点

现在大多数人都已经知道,LED是一种节能减排的新光源。但是还有一个很大的优点却经常被忽略,那就是无污染和环保。我们知道汞是一种极其有毒的物质,然而几乎大多数目前采用的高效电光源中都含有汞,各种电光源的含汞量如下表所示: 而汞的沸点 ...…

查看全部问答>

请教大家一个指定函数的分页或分段的问题,谢谢了!

小弟初学WDM,发现很多例子中都要指定函数的分页或分段,如下所示: #pragma alloc_text(INIT, DriverEntry) #pragma alloc_text(PAGE, Example_Unload) 请问这样有什么特别的用途吗?好像不加这两句程序也能正常运行!…

查看全部问答>

keil中使用扩展存储器

问一个问题:怎样在keil中使用扩展存储器,比如89c51+2764(8k*8 rom)两种情况:1.程序大于4k,比如是6k,那么我生成了hex文件(是连续的)后,怎样分开分别向芯片中烧制呢?2.程序小于4k比如是2k,但是将一部分放入89c51中,比如1k,将另一部分1k ...…

查看全部问答>

c语言的起源与概述

C语言是在 70 年代初问世的。一九七八年由美国电话电报公司(AT&T)贝尔实验室正式发表了C语言。同时由B.W.Kernighan 和 D.M.Ritchit 合著了著名的“THE C PROGRAMMING LANGUAGE”一书。通常简称为《K&R》,也有人称之为《K&R》标准。但是, ...…

查看全部问答>

Cyclone V GX试用报告--高频超声数据采集系统

Cyclone V GX试用报告--高频超声数据采集系统    首先感谢EEworld网站和Altera公司联合提供了这么好的活动,使得我有机会接触到Altera最新的Cyclone系列的FPGA。本次评估的目的是借助Altera 提供的Cyclone V GX FPGA开发板的平台来验证一 ...…

查看全部问答>

quarus ii中的signal tap是否可以复制多个node

之前一直使用Xilinx的ISE进行开发,使用chipscope看波形时可以将探针信号进行复制、重新编组等操作,很方便。现在刚开始用Quartus ii 9.1,在使用signal tap上板调试时,发现没有办法复制node。 比如信号 a位宽为32位,第一拍,第二拍和第三拍的数 ...…

查看全部问答>

13年电子设计大赛猜题

本帖最后由 paulhyde 于 2014-9-15 03:19 编辑 球大神指点,今年电源类题目大概会出什么养的题目大概要买些什么元器件    …

查看全部问答>

两级RC电路的移相角计算

很多文章都简单介绍一级RC移相电路的移相角计算,移相角为arctg(wRC),但是如下图,图1和图2两级RC移相的角度又如何计算呢?我用仿真软件仿真过,图1的移相角直接等于两级单独移相的代数和,但是图2的移相角不知道如何计算,请高手指教一下。 …

查看全部问答>