历史上的今天
返回首页

历史上的今天

今天是:2024年12月03日(星期二)

正在发生

2019年12月03日 | iOS 逆向之ARM汇编

2019-12-03 来源:eefocus

最近对iOS逆向工程很感兴趣。

目前iOS逆向的书籍有: 《Hacking and Securing IOS Applications》, 《iOS Hacker's Handbook》中文书籍有《iOS应用逆向工程:分析与实战》

中文博客有: 程序员念茜的《iOS安全攻防系列》 英文博客有:Prateek Gianchandani的iOS 安全系列博客

这些资料中都涉及到有ARM汇编,但都只是很泛地用到,并没有对iOS上的ARM汇编进行比较详细的讲解。因此,经过一系列的学习对iOS下的ARM有了一定的理解。在此打算用几篇博文记录下来,备忘之,分享之, 限于本人水平有限,如有错误请不吝赐教。

 

我们先讲一些ARM汇编的基础知识。(我们以ARMV7为例,最新iPhone5s上的64位暂不讨论)

基础知识部分:

 

首先你介绍一下寄存器:

R0-R3:用于函数参数及返回值的传递

R4-R6, R8, R10-R11:没有特殊规定,就是普通的通用寄存器

R7:栈帧指针(Frame Pointer).指向前一个保存的栈帧(stack frame)和链接寄存器(link register, lr)在栈上的地址。

R9:操作系统保留

R12:又叫IP(intra-procedure scratch ), 要说清楚要费点笔墨,参见http://blog.csdn.net/gooogleman/article/details/3529413

R13:又叫SP(stack pointer),是栈顶指针

R14:又叫LR(link register),存放函数的返回地址。

R15:又叫PC(program counter),指向当前指令地址。

CPSR:当前程序状态寄存器(Current Program State Register),在用户状态下存放像condition标志中断禁用等标志的。

     在其它系统状态中断状等状态下与CPSR对应还有一个SPSR,在这里不详述了。

另外还有VFP(向量浮点运算)相关的寄存器,在此我们略过,感兴趣的可以从后面的参考链接去查看。

 

基本的指令:

add 加指令

sub 减指令

str 把寄存器内容存到栈上去

ldr  把栈上内容载入一寄存器中

.w是一个可选的指令宽度说明符。它不会影响为此指令的行为,它只是确保生成 32 位指令。Infocenter.arm.com的详细信息

bl 执行函数调用,并把使lr指向调用者(caller)的下一条指令,即函数的返回地址

blx 同上,但是在ARM和thumb指令集间切换。

bx  bx lr返回调用函数(caller)。

 

接下来是函数调用的一些规则。

一. 在iOS中你需要使用BLX,BX这些指令来调用函数,不能使用MOV指令(具体意义下面会说)

二. ARM使用一个栈来来维护函数的调用及返回。ARM中栈是向下生长(由高地址向低地址生长的)。

函数调用前后栈的布局如图一(引用的苹果iOS ABI Reference):

              图(一)

SP(stack pointer)指向栈顶(栈低在高地址)。栈帧(stack frame)其实就是通过R7及存在栈上的旧R7来标识的栈上的一块一块的存储空间。栈帧包括:

  1. 参数区域(parameter area),存放调用函数传递的参数。对于32位ARM,前4个参数通过r0-r3传递,多余的参数通过栈来传递,就是存放在这个区域的。

  2. 链接区域(linkage area),存放调用者(caller)的下一条指令。

  3. 栈帧指针存放区域(saved frame pointer),存放调用函数的栈帧的底部,标识着调用者(caller)栈帧的结束及被调用函数(callee)的栈帧开始。

  4. 局部变量存储区(local storage area)。用于存被调函数(callee)的局部变量及在被调用函数(callee)结束后反回调用函数(call)之前需要恢复的寄存器内容。

  5. 寄存器存储区(saved registers area)。Apple的文档中是这样说的。但我认为这个区域和local storage area相邻且干的事也是存放需要恢复的寄存器内容,因此我觉得要不就把这个区域在概念上不区分出来,要不就把存放需要恢复的寄存器这项功能从local storage area中分出来。 当然这些都只是概念上的,其实实质上是没有区别的。

接下来看看在调用子函数开始及结尾时所要做的事情。(官方叫序言和结语, prologs and epilogs)

调用开始:

  1. LR入栈

  2. R7入栈

  3. R7 = SP地址。在经过前面两条入栈指令后,SP指向的地址向下移动,再把SP赋值给R7, 标志着caller栈帧的结束及callee的栈帧的开始

  4. 将callee会修改且在返回caller时需要恢复的寄存器入栈。

  5. 分配栈空间给子程序使用。由于栈是从高地址向低地址生长,所以通常使用sub sp, #size来分配。

调用结尾:

  1. 释放栈空间。add sp, #size指令。

  2. 恢复所保存的寄存器。

  3. 恢复R7

  4. 将之前存放的LR从栈上弹出到PC,这样函数就返回了。

-----------------------------------------------------------华丽的分割线-------------------------------------------------------------

实战部分(一):

用XCode创建一个Test工程,新建一个.c文件,添加如下函数:

1
2
3
4
5
6
7
#include
 
int func(int a, int b, int c, int d, int e, int f)
{
    int g = a + b + c + d + e + f;
    return g;
}

查看汇编语言:

在XCode左上角选中targe 在真机下编译,这样产生的才是ARM汇编,不然在模拟器下生成的是x86汇编。

点击 XCode => Product => Perform Action => Assemble file.c 生成汇编代码。

代码很多,有很多"."开头的".section", ".loc"等,这些是汇编器需要的,我们不用去管。把这些"."开头的及注释增掉后,代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
_func:
    .cfi_startproc
Lfunc_begin0:
    add r0, r1
Ltmp0:
    ldr.w   r12, [sp]
    add r0, r2
    ldr.w   r9, [sp, #4]
    add r0, r3
    add r0, r12
    add r0, r9
    bx  lr
Ltmp2:
Lfunc_end0:

 _func:表示接下来是func函数的内容。Lfunc_begin0及Lfunc_end0标识函数定义的起止。函数起止一般是"xxx_beginx:"及"xxx_endx:"

下面来一行行代码解释:

  1. add r0, r1                 将参数a和参数b相加再把结果赋值给r0

  2. ldr.w r12, [sp]           把最的一个参数f从栈上装载到r12寄存器

  3. add r0, r2                 把参数c累加到r0上

  4. ldr.w r9, [sp, #4]       把参数e从栈上装载到r9寄存器

  5. add r0, r3                 累加d累加到r0

  6. add r0, r12               累加参数f到r0

  7. add r0, r9                 累加参数e到r0

至此,全部的a到f 共6个值全部累加到r0寄存器上。前面说了r0是存放返回值的。

bx lr: 返回调用函数。

-----------------------------------------------------------华丽的分割线-------------------------------------------------------------

实战部分(二):

为了让大家看清楚函数调用时栈上的变化,下面以一个有三个函数,两个调用的C代码的汇编代码为例讲解一下。

上代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
#include
 
__attribute__((noinline))
int addFunction(int a, int b, int c, int d, int e, int f) {
    int r = a + b + c + d + e + f;
    return r;
}
 
__attribute__((noinline))
int fooFunction(int a, int b, int c, int d, int f) {
    int r = addFunction(a, b, c, d, f, 66);
    return r;
}
 
int initFunction()
{
    int r = fooFunction(11, 22, 33, 44, 55);   
    return r;
}

由于我们是要看函数调用及栈的变化的,所以在这里我们加上__attribute__((noinline))防止编译器把函数内联(如果你不懂内联,请google之)。

在XCode左上角选中targe 在真机下编译,这样产生的才是ARM汇编,不然在模拟器下生成的是x86汇编。

点击 XCode => Product => Perform Action => Assemble file.c 生成汇编代码, 如下:

为了能更符合我们人的思考方式,我们从调用函数讲起。

 initFunction:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
_initFunction:
    .cfi_startproc
Lfunc_begin2:
@ BB#0:
    push    {r7, lr}
    mov r7, sp
    sub sp, #4
    movs    r0, #55
    movs    r1, #22
Ltmp6:
    str r0, [sp]
    movs    r0, #11
    movs    r2, #33
    movs    r3, #44
    bl  _fooFunction
    add sp, #4
    pop {r7, pc}
Ltmp7:
Lfunc_end2:

还是一行行的解释:

  1. push {r7, lr}                      就是前面基础知识部分说的函数调用的序言(prologs)部分的1, 2两条,将lr, r7 存到栈上去

  2. mov r7, sp                         序言(prolog)之3。

  3. sub sp, #4                         在栈上分配一个4字节空间用来存放局部变量, 即参数。前面我们说过,r0-r3可以传递4个参数,但超过的只能通过栈来传递。

  4. movs r0, #55                     把立即数55存入r0

  5. movs r1, #22                     把22存入r1

  6. str r0, [sp]                         把r0的值存入栈指针sp指向的内存。即栈上存了参数55

  7. 接下来三条指令 moves r0, #11   moves r2, #33   moves r3, #44  把相应的立即数存入指定的寄存器。  到目前为止,r0-r3分别存放了11, 22, 33,44共4个立即数参数,栈上存放了55这一个参数。

  8. bl _fooFunction                   调用fooFunction, 调用后跳转到fooFunction中的情况下面再分析。

  9. add sp, #4                         栈指针向上移动4个字节,回收第3个指令 sub sp, #4分配的空间。

  10. pop {r7, pc}                       恢复第一条指令push {r7, lr}到栈中的值, 把之前的lr值赋给pc。注意:在进入initFunction的时候lr是调用initFunction的函数的下一条指令,所以现在把当时的lr中的值赋给pc程序计数器,这样执行lr指向的这一条指令,函数就反回了。

指令1,2, 3是函数序言(prologs),指令9, 10是结语(epilogs)。这基本上是一个套路,看多了自然就知道了,都不用停下来一条条分析。

为了方便和栈的变化联系起来,我们画出指令8,  bl __fooFunction时的栈布局如图二:

          图(二)

在上面的initFunction调用第8条指令bl _fooFunction之后,进入fooFunction, 其它汇编如下:

 fooFunction:

1
2
3
4
5
6
7
8
9
10
11
12
13
_fooFunction:
    .cfi_startproc
Lfunc_begin1:
    push    {r4, r5, r7, lr}
    add r7, sp, #8
    sub sp, #8
    ldr r4, [r7, #8]
    movs    r5, #66
    strd    r4, r5, [sp]
    bl  _addFunction
    add sp, #8
    pop {r4, r5, r7, pc}
Lfunc_end1:

一样,我们一行行来看:

  1. push {r4, r5, r7, lr}             你应该发现了,这次和initFunction不同,除了lr和r7也把r4, r5 push到栈上去了,这是因为我们下面会用到r4, r5,所以我们先把r4,r5存到栈上,这样我们在退出fooFunction返回initFunction的时候好恢复r4, r5的值。push到栈上的顺序是lr, r7, r4, r5。 

  2. add r7, sp, #8                     在initFunction中我们没有push r4, r5所以sp指向的位置正好是新的r7的值,但是这里我们把r4, r5也push到栈上了,现在sp指向栈上的r4的位置,而栈是向下生长的,所以我们把sp + #8个字节就是存放旧r7的位置。

  3. sub sp, #8                          在栈上分配8个字节。

  4. ldr r4, [r7, #8]                    r7加8个字节,在栈上的位置正好是在initFunction中我们存放的参数55的位置。因此,这里是把55赋值给r4

  5. movs  r5, #66                     立即数赋值,不解释了

  6. strd r4, r5, [sp]                   把r4, r5中的值存到栈上。我们在initFunction中已经把11,22,33,44这4个参数存放到了r0-r3,现在55,66我们存放在栈上

  7. bl _addFunction                   参数已经准备好了,因此现在调用addFunction。

  8. add sp, #8                          回收栈空间

  9. pop {r4, r5, r7, pc}              这最后两条指令和 initFunction类似,只是多了个恢复r4,r5。不过也是一个指令就完事。

在指令bl _addFunction 调用addFunction后,栈的布局如图(三):

            图(三)

上面的fooFunction第7条指令bl _addFunction之后,进入addFunction。汇编代码如下:

addFunction:

1
2
3
4
5
6
7
8
9
10
11
12
_addFunction:
    .cfi_startproc
Lfunc_begin0:
    add r0, r1
    ldr.w   r12, [sp]
    add r0, r2
    ldr.w   r9, [sp, #4]
    add r0, r3
    add r0, r12
    add r0, r9
    bx  lr
Lfunc_end0:

逐行解释之:

  1. add r0, r1              r0 += r1

  2. ldr.w r12, [sp]           把sp指向的内容load到r12寄存器。从图(三)我们知道sp指向66,因此r12存的66

  3. add r0, r2                 r0 += r2

  4. ldr.w r9, [sp, #4]       从图(三) sp加4个字节存的是55, r9存的55

推荐阅读

史海拾趣

Electronic Concepts Inc公司的发展小趣事

随着公司规模的不断扩大,ECI越来越重视团队建设。公司高层认识到,一个团结、高效的团队是企业持续发展的关键。在人力资源部经理刘女士的策划下,ECI开展了一系列团队建设活动,如拓展训练、员工分享会等。这些活动不仅增强了员工的凝聚力,也提升了员工的工作效率和创新能力。

Carlo Gavazzi公司的发展小趣事

Carlo Gavazzi公司由加瓦齐家族在1931年创立,最初可能只是一个小规模的电气公司。然而,凭借创始人对技术的深刻理解和前瞻性的市场洞察力,公司迅速在行业中崭露头角。在随后的几十年里,公司不断扩展业务范围,逐步建立起自己在电气和电子领域的地位。

Comtech AHA Corp公司的发展小趣事

Comtech AHA Corp自创立之初,便以技术创新为核心竞争力。公司研发团队不断攻克技术难关,推出了一系列具有自主知识产权的高性能电子产品。其中,一款具有自主知识产权的通信芯片在市场上取得了巨大成功,为公司带来了可观的收益。随着技术的不断迭代升级,Comtech AHA Corp逐渐在电子行业中占据了一席之地。

Antenna Factor公司的发展小趣事

Antenna Factor公司始终注重产品质量和客户体验。他们建立了严格的质量管理体系,从原材料采购到产品生产的每一个环节都进行严格的把控。同时,公司还加强了对售后服务的管理和改进,确保客户在使用过程中能够得到及时、有效的支持。这些举措使得Antenna Factor公司的产品质量和品牌形象得到了显著提升。

迦美信芯(CanaanTek)公司的发展小趣事

迦美信芯一直致力于技术创新和产品升级。公司推出的面向手机终端和物联网的2G/3G/4G/5G全系列的射频开关、天线调谐器、低噪声放大器等产品,在行业内具有较高的知名度和美誉度。特别是在天线调谐器领域,迦美信芯已成为国内设计出天线调谐器芯片并大量量产的厂家之一。

Formosa MS公司的发展小趣事

在导航芯片领域,迦美信芯也取得了显著成就。由公司董事长兼CTO倪文海主导开发的兼容“GPS+北斗导航”的射频芯片,被国内主要基带厂商广泛采用,占据了北斗细分市场60%的份额。这一成就不仅彰显了迦美信芯在导航芯片领域的强大实力,也为其在物联网和汽车电子等领域的应用奠定了坚实基础。

问答坊 | AI 解惑

基于24C02和LCD液晶显示的电子密码锁的仿真.rar

基于24C02和LCD液晶显示的电子密码锁的仿真…

查看全部问答>

基于CPLD的数据采集与显示接口电路仿真设计1

摘要:常规数据采集与显示方法是应用CPU或DSP通过软件控制数据采集的模/数转换,这样将会频繁中断系统的运行,从而降低系统的运算速度,数据采集的速度也将受到限制。通过CPLD实现由硬件控制模/数转换和数据显示,最大限度地提高系统的信号采集和 ...…

查看全部问答>

像设计芯片一样教育孩子

“据现代科学研究的数据,幼儿的大脑三岁时75%生长成熟。到六岁,大脑发育完成。我们常把这个过程比做芯片设计的过程。”江宏说,“三岁,75%的功能都设计好,这被称为‘Freeze’,即设计基本成熟,这在芯片设计上成为设计‘冻结’。而六岁,就是‘ ...…

查看全部问答>

IC测试原理解析(一)

本系列一共四章,下面是第一部分,主要讨论芯片开发和生产过程中的IC测试基本原理, 内容覆盖了基本的测试原理,影响测试决策的基本因素以及IC测试中的常用术语。 第一章 数字集成电路测试的基本原理 器件测试的主要目的是保证器件在恶劣的 ...…

查看全部问答>

stm32编译问题求助

在用KEIL UV4编译时,出现TYPE.H与STM32F10X.H重复定义的问题,之前是用V2.0.1的库,现在用V3.5.0的库,求助高手,急待解决,谢谢!…

查看全部问答>

拿到LaunchPad了

拿到LaunchPad了,谢谢eeworld,谢谢ti。各个鞋童,准备怎么玩?…

查看全部问答>

iPhone触电致死原因未明:使用非行货充电器

据央视新闻微博报道,12日,新疆昌吉市公安局接到报警,一名23岁空姐遭电击死亡。警方现场发现,死者身体多处被电击灼伤,身边iPhone4手机正在充电。但手机的数据线、充电器及插线板都完好无损,手机也能正常开机。死因是否为手机问题?警方正在进 ...…

查看全部问答>

求marvel 8786 wifi的相关资料

请问哪个大侠有marvel 8786 wifi的资料可以分享给小弟吗? 最近想基于stm32做一个wifi转串口的板子练练手,可是不知道在哪可以找到这个相关的资料啊?有熟悉这个片子的兄弟吗?能不能发一份给我啊?我的邮箱是yunfei.ma2@gmail.com,有同志前辈也 ...…

查看全部问答>

新人求助!!!msp430f6638!!!

1.Description        Resource        Path        Location        Type #10234-D  unresolved symbols remain        MSP430 ...…

查看全部问答>

大家帮我分析一下我的电路

大家好,希望大家帮我分析一下我的电路,解答一年我的疑问。谢谢了 我在做一个信号调理电路,输入信号为0.1mVp-p,频率为12.5K。需要放大到4Vp-p给后端的ADC提供好的动态范围。以下是我仿真的电路; 我有以下疑问:我在仿真时如果去掉最后的ADA ...…

查看全部问答>