其他分享
首页 > 其他分享> > 逆向工程核心原理

逆向工程核心原理

作者:互联网

一.熟悉调试器

1.设置“大本营”的四种方法

每次重新运行调试器,都会回到程序的入口点,为方便使用,可以设置某个重要的点(地址),使调试可以快速转到设置点上。

(1)Goto命令

记录设置大本营的地址,执行Go to(Ctrl + G)命令,输入地址,使光标定位到该地址,按F4,让调试流运行到该处。

(2)设置断点

按F2在大本营设置断点,设置后调试运行到断点处将会暂停。也可在Breakpoint对话框双击断点跳转。

(3)注释

按键盘上的 ";" 键 ,可以在指定地址添加注释。同样鼠标右键菜单中选择Search for—User defined comment,可以看到用户的所有注释,双击地址可定位。

(4)标签

按键盘上的 ":" 键 ,可以在指定地址添加标签。同样鼠标右键菜单中选择Search for—User defined labels菜单可打开标签窗口

2.快速查找指定代码的四种方法

(1)代码执行法

若程序功能非常明确时,可以逐条执行来查找需要查找的位置。

(2)字符串检索法

Search for—All referenced text strings

查看相应字符串所在地址

(3)API检索法
①在调用代码中设置断点

Search for—All intermodular calls

当应用程序向显示器画面输出内容时,需要在程序内部调用Win32 API。当我们能够推测出来程序运行调用的API时,可以查找所有的API,寻找地址。

②在API代码中设置断点

Search for—Name in all calls

当不能列出API函数时,可以向DLL代码库添加断点。因为当编写的应用程序执行操作时,必然会使用操作系统提供的API想OS提出请求,然后被调用API对应的系统DLL文件会加载到应用程序的内存中,Alt+M打开内存映射窗口,找到系统库函数,右键Name in all modules可以显示该函数所有API,查找函数。

3.“打补丁”修改字符串

"打补丁"不仅可以修复bug,还能向程序中添加新功能。对象可以是文件、内存,还能是程序的代码、数据等。

修改字符串的两种方法
①直接在缓冲区修改字符串

选中16进制代码部分,Ctrl+E打开编辑模式,修改字符串。注意,当修改范围超过原有字符串,可能损失后面的数据。

上面的修改是暂时的,若想永久保存,要把更改后的程序保存为一个可执行文件。

在dump窗口选中更改后的字符串,右键菜单中选择Copy to executable file,打开Hex窗口,继续右键选择Save file,输入文件名,保存为.exe文件。

②在其他内存区域新建字符串并传递给消息函数

字符串以参数形式传递给函数,此时传递的是所在区域的首地址,若改变字符串地址,消息框就可以变成更改后的字符串。在内存中选择NULL填充区域,Ctrl+E填充字符串,将填充后的首地址传递给函数,光标定位到要修改的首地址处,按空格键打开Assemble窗口,修改地址即可。

二.小端序标记法

字节序

字节序是多字节数据在计算机内存中存放的字节顺序,主要分为小端序和大端序。

举例来说,数值0x2211使用两个字节储存:高位字节是0x22,低位字节是0x11

  • 大端字节序:高位字节在前,低位字节在后,这是人类读写数值的方法。

  • 小端字节序:低位字节在前,高位字节在后,即以0x1122形式储存。

三.IA-32寄存器

1.CPU寄存器

寄存器是CPU内部用来存放数据的一些小型存储区域,与RAM(随机存储器)不同,CPU访问RAM要经过较长的物理路径,话费时间更长;寄存器在CPU内部,具有更快的读写速度。

2.IA-32寄存器

包括基本程序运行寄存器、控制寄存器、内存管理寄存器、调试寄存器。

基本程序运行寄存器

 

 

 

 

 

 

 

 

(1)通用寄存器

用于传送和暂存数据,也可参与算数逻辑运算,并保存运算结果。

为了实现对低16位的兼容,各寄存器又可以分为高(High)和低(Low)。

以EAX为例:

 

 

各寄存器的名称及作用:

EAX:(针对操作数和结果数据的)累加器

EBX:(DS段中的数据指针)基址寄存器

ECX:(字符串和循环操作的)计数器

EDX:(I/O指针)数据寄存器

上述寄存器只要用在算术运算(ADD、SUB、XOR、OR等)指令中。此外,ECX也可在循环命令中循环次数,每循环一次,ECX减1;EAX一般用在函数返回值中,所有Win32API函数都会先把返回值保存到EAX再返回。

EBP:(SS段中栈内数据指针)扩展基址指针寄存器

ESI:(字符串操作源指针)源变址寄存器

EDI:(字符串操作目标指针)目的变址寄存器

ESP:(SS段中栈指针)栈指针寄存器

(2)段寄存器

段是一种内存保护技术,它把内存划分为多个区段,并为每个区段赋予起始地址、范围、访问权限等,以保护内存。此外,它还同分页技术一起用于将虚拟内存变更为实际物理内存。

段寄存器总共由6种寄存器组成,分别为CS、SS、DS、ES、FS、GS,每个寄存器的大小为16位,即2个字节。每个段寄存器指向的段描述符与虚拟内存结合,形成一个线性地址,借助分页技术,线性地址最终转换为实际的物理地址。

CS:代码段寄存器

SS:栈段寄存器

DS:数据段寄存器

ES:附加(数据)段寄存器

FS:数据段寄存器

GS:数据段寄存器

顾名思义,CS用来存放应用程序代码所在段的段基址,SS用于存放栈段的段基址,DS用于存放数据段的段基址,ES、FS、GS来存放程序使用的附加数据段的段基址。

(3)程序状态与控制寄存器

EFLAGS:Flag Register,标志寄存器

大小为4字节,32位,由原来的16位FLAGS寄存器扩展而来。每一位都有意义,每一位的值或为1或为0,代表On/Off或True/False。目前只需掌握三个标志:ZF(Zero FLag零标志),OF(Overflow Flag)溢出标志、CF(Carry Flag,进位标志)。

ZF:若运算结果为0,则结果为1(True),否则其值为0(False)

OF:有符号整数(signed integer)溢出时,OF值被置为1。

CF:无符号整数(unsigned integer)溢出时,其值被置为1。

(4)指令指针寄存器

EIP:Instruction Pointer,指令指针寄存器

指令指针寄存器保存着CPU要执行的指令地址,大小为32位(4个字节)。程序运行时,CPU会读取EIP中一条指令的地址,传送指令到指令缓冲区,EIP寄存器的值自动增加,增加的大小是读取指令的字节大小。

四、栈

1.栈

栈内存在进程中的作用如下

(1)暂时保存函数内的局部变量

(2)调用函数时传递参数

(3)保存函数返回后的地址

栈作为一种数据结构,按照先进后出的原则存储数据。

栈的特性

 

 

一个进程中,栈顶指针(ESP)初始状态指向栈底端。执行PUSH命令将数据压入栈时,栈顶指针就会上移到栈顶端,栈顶指针减小,执行POP命令从栈中弹出数据时,若栈为空,则栈顶指针重新移动到栈底端,栈顶指针增大。所以,栈是一种由高地址向低地址扩展的数据结构。

五.栈帧

栈帧是利用EBP寄存器访问栈内局部变量、参数、函数返回地址等的手段。栈顶指针ESP寄存器会在程序运行中发生变化,若以ESP为基准访问数据,会产生其他问题。所以,把ESP的值保存在EBP中,以EBP为基准访问数据,这就是栈帧的作用。

六、函数调用约定

函数调用约定是对函数如何传递参数的一种约定。调用函数前先把参数压入栈再传递给参数,栈是定义在进程中的内存空间,当进程运行时确定栈内存的大小。

Q:函数执行完成后,栈中参数如何处理。

A:不用管。

参数临时储存在栈中,再向栈存放其他值时,原有值会被覆盖掉。且栈内存固定,既不能也没必要释放内存。

Q:函数执行完毕,ESP的值如何变化?

A:ESP值要恢复到函数调用之前,这样可引用的栈大小才不会缩减。

因为栈内存固定,ESP来指示当前栈的位置,若ESP指向栈底,则无法再使用该栈。函数调用后如何处理ESP,是函数调用约定要解决的问题。

主要的函数调用如下:

1.cdecl

cdecl是主要在C语言中使用的方式,调用者负责处理栈。参数由右向左入栈。

调用函数的参数入栈后,调用者函数直接清理其压入栈的函数参数。

2.stdcall

此方式常用于Win32API,调用函数的参数入栈(由右向左)后,调用者函数直接清理其压入栈的函数参数。

好处在于,代码尺寸小,拥有更好的兼容性。

3.fastcall

fastcall与stdcall方式基本类似,当该方式通常会使用寄存器(函数的第一个和第二个参数通过ecx和edx传递)而非栈内存来传递参数。若某函数有四个参数,则前两个参数分别使用ECX、EDX寄存器传递。

七.PE文件

PE(Portable Executable)文件是Windows操作系统下使用的可执行文件格式。PE文件是指32位的可执行文件,64位的可执行文件称为PE+或PE32+,是PE(32)文件的一种扩展形式。

1.PE文件格式

 

 

严格的说,OBJ(对象)文件之外的所有文件都是可执行的。DLL、SYS文件不能直接在shell中运行,但可以使用调试器等等执行。

(1)基本结构

DOS(磁盘操作系统)头到节区头是PE头部分,其下的节区合称PE体。文件中使用偏移,内存中使用VA(Virtual Address,虚拟地址)来表示位置。文件的内容一般可分为代码(.text)、数据(.data)、资源(.rsrc)节,分别保存。

节区:Flash芯片的最小数据存储单位

节区头定义了各节区在文件或内存中的大小、位置、属性等。PE头与各节区的尾部存在一个区域,称为NULL填充。

 

 

(2)VA&RVA

VA指进程虚拟内存的绝对地址,RVA(相对虚拟地址)指从某个基准位置(ImageBase)开始的相对地址。

换算关系:RVA+ImageBase=VA

2.PE头

(1)DOS头

DOS文件广泛使用时,微软为了PE文件对DOS文件的兼容性,在PE头的最前面添加了一个IMAGE—DOS—HEADER结构体,来扩展已有的DOS EXE头。

IMAGE—DOS—HEADER结构体大小为40字节,必须知道两个重要成员。e_magic与e_lfanew.

e_magic:DOS签名(4D5A=>ASCII值"MZ")

e_lfanew:指示NT头的偏移(不同文件拥有可变值)

所有PE文件在开始部分都有DOS签名(“MZ”),e_lfanew值指向NT头所在位置。

(2)DOS存根

DOS存根在DOS头下方,是可选项,且大小不固定。

DOS存根的内容是当我们的程序在DOS环境中运行时执行的代码, 也就是给一个提示信息:This is program cannot be run in DOS mode, 那我们是可以随便将其内容修改为自己想填充的东西, 反正不会影响在window os中的运行, 但记住这个大小是不能修改的, 会影响后面指令索引地址跟着出错, 最后程序崩溃

(3)NT头(IMAGE—NT—HEADERS)

此结构体由三个成员组成,第一成员为签名结构体,值为50450000h(“PE”00)另外两个成员分别为文件头与可选头结构体。

(4)文件头

表现文件大致属性的IMAGE—FILE—HEADERS结构体。结构体有以下4种重要成员。

#1.Machine

每个CPU都拥有唯一的Machine码,兼容32位Intel x86芯片的Machine码为014c。

#2.NumberOfSection

用来指出文件中存在的节区数量。该值必须大于0,且当定义的节区数量与实际节区不同时,会发生运行错误。

#3.SizeOfOptionalHeader

IMAGE—NT—HEADERS结构体的最后一个成员是IMAGE—OPTIONAL—HEADER32结构体。

SizeOfOptionalHeader成员用来指出IMAGE—OPTIONAL—HEADER32结构体的长度。

#4.Characteristics

用来标识文件的属性,文件是否是可运行的状态、是否为DLL文件等信息。

(5)可选头

IMAGE—OPTIONAL—HEADER32是结构体中最大的,需要关注下列成员。

#1.Magic

为IMAGE—OPTIONAL—HEADER32结构体时,Magic码为10B;为IMAGE—OPTIONAL—HEADER64结构体时,Magic码为20B。

#2.AddressOfEntryPoint

AddressOfEntryPoint持有EP的RVA值,该值指出程序最先执行的代码起始地址。

#3.ImageBase

32位系统进程虚拟内存范围是0~FFFFFFFF,ImageBase指出文件的优先装入地址。EXE、DLL文件被装载到用户内存的0~7FFFFFFF中,SYS文件被载入内核内存的80000000~FFFFFFFF中。

#4.SectionAlignment,FileAlignment

PE文件的Body部分划分为若干节区,FileAlignment指定了节区在磁盘文件中的最小单位,而SectionAlignment则指定了节区在内存中的最小单位。

#5.SizeOfImage

加载PE文件到内存时,SizeOfImage指定了PE Image在虚拟内存中所占空间的大小。

#6.SizeOfHeader

用来指出整个PE头的大小。

#7.Subsystem

该Subsystem值用来区分系统驱动文件(*.sys)与普通的可执行文件(*.exe,*.dll)。

#8.NumberOfRvaAndSizes

用来指定DataDirectory数组的个数

#9.DataDirectory

是由IMAGE_DATA_DIRECTORY结构体构成的数组。

(5)节区头

PE文件中的code(代码)、data(数据)、resource(资源)等按照属性分类在不同节区,然后把各节区属性记录在节区头中(节区属性中有文件/内存的起始位置、大小、访问权限等)。

IMAGE_SECTION_HEADER

节区头是由IMAGE_SECTION_HEADER结构体组成的数组,每个结构体对应一个节区。

重要成员如下:

 

 

3.RVA to RAW

PE文件加载到内存时,每个节区需要准确完成内存地址与文件偏移间的映射,称为RVA to RAW

公式:RAW=RVA - VirtualAddress(内存中节区起始位置) + PointerToRawData(磁盘中节区起始位置)。

4.IAT(Import Address Table,导入地址表)

IAT保存的内容与Windows操作系统的核心进程、内存、DLL结构有关,简言之,IAT是一种表格,用来记录正在使用哪些库中的哪些函数。

(1)DLL(动态链接库)

为了提高计算机效率, 引入了DLL概念。描述如下:

加载DLL方式实际有两种:一种是“显式链接”,程序使用DLL加载,使用完毕后释放内存;另一种是“隐式链接”,程序开始时即一同加载DLL,程序终止时再释放占用的内存。IAT提供的机制与隐式链接有关。

(2)IMAGE_IMPORT_DESCRIPTOR

IMAGE_IMPORT_DDESCRIPTOR结构体记录着PE文件要导入哪些库文件。

注意

Import:导入,向库提供服务(函数)

Export:导出,从库向其他PE文件提供服务(函数)

执行一个普通程序时往往需要导入多个库,导入多少库就存在多少IMAGE_IMPORT_DDESCRIPTOR结构体,这些结构体形成了数组,且结构体数组最后以NULL结构体结束。

重要成员如下:

 

 

5.EAT

在Windows操作系统中,库是问了方便程序调用而组合起来的包含函数的集合体。EAT是一种核心机制,应用程序只有通过EAT才能准确求得从库中导出函数的起始地址。与IAT一样,特定结构体IMAGE_EXPORT_DESCRIPTOR(在PE头中)保存导出信息,且PE文件中仅有一个用来说明库EAT的结构体。

用来说明IAT的IMAGE_IMPORT_DESCRIPTOR以数组存在,且拥有多个成员,是因为PE文件可以同时导入多个库

重要成员

 

 

GetProcAddress()

从库中获得函数地址的API为GetProcAddress()函数,该API引用EAT来获取指定API的地址。

 

 

八.运行时压缩

1.数据压缩

任何文件(数据)都由0或1组成,只要有合适的压缩算法,就能缩减大小。若压缩后文件能100%恢复,称为无损压缩;若不能恢复原状,称为有损压缩。

2.运行时压缩器

运行时压缩器是针对可执行文件而言的,可执行文件内部含有解压缩代码,文件在运行瞬间于内存中解压缩后执行。

运行时压缩文件也是PE文件,内部含有原PE文件与解码程序

 

 

把普通PE文件创建成运行时压缩文件的实用程序称为压缩器,经反逆向技术特别处理的压缩器称为保护器。

(1)压缩器

PE压缩器指可执行文件压缩器,是PE文件的专用压缩器

目的:

便于传输和保存

可以隐藏PE文件内的代码及资源(字符串、API名称字符串)

(2)保护器

PE保护器是一类保护PE文件免受代码逆向分析的实用程序。它们不像普通的压缩器一样仅对PE文件进行运行时压缩,还应用了多种防止代码逆向分析的工具。

使用目的

不仅可以保护PE文件本身,还可在文件运行时保护进程内存,防止打开Dump窗口。

3.运行时压缩的文件

以notepad.exe与notepad_upx.exe为例

 

 

在第一个节区中RawDataSize为0,即第一节区在磁盘文件中不存在,但第一节区VirtualSize为0010000,即在内存中存在。由此可知,经过UPX压缩后的PE文件在运行瞬间将压缩的代码解压到内存中的第一节区中,解压缩代码和压缩的源代码都在第二节区,文件运行时首先执行解压缩代码,将处于压缩状态的源代码解压到第一节区,解压结束后再运行源文件的EP代码。

4.快速查找UPX OEP的方法

OEP:源文件的EP为OEP

(1)在POPAD指令后的JMP指令处设置断点

UPX压缩器的特征之一是,其EP代码被包含在PUSHAD/POPAD指令之间,并且跳转到OEP代码的JMP指令紧接着出现在POPAD指令之后,只要在JMP指令处设置好断点,运行后就能直接找到OEP。

(2)在栈中设置硬件断点

该方法也利用UPX的PUSHAD/POPAD指令的特点。在执行PUSHAD命令后,EAX到EDI寄存器的值依次被存储到栈,对该栈地址设置硬件断点,当执行POPAD指令时会访问该内存地址来获取寄存器的值,从而触发断点。

九.基址重定位表

1.PE重定位

基址重定位表(Base Relocation Table),记录PE重定位时需要修改的硬编码地址的位置。

一般地,向进程的虚拟内存加载PE文件(EXE、DLL、SYS)时,文件会被加载到PE头的ImageBase所指的地址处。若加载的文件为DLL或SYS,且ImageBase位置加载了其他DLL或SYS文件时,则会进行PE重定位。

PE重定位是指PE文件无法加载到ImageBase所在位置时,加载到其他地址所发生的处理行为。

在进程创造好之后,EXE文件会首先加载到内存当中,因而无需考虑重定位的问题。

系统的DLL实际不会发生重定位,因为同一系统的kernel32.dll、user32.dll等会被加载到自身固有的ImageBase。

基址重定位表(以notepad.exe为例)

位于PE头的DataDirectory数组

 

 

基址重定位表的地址为RVA 2F000

 

 

第一个成员为VirtualAddress,实际是RVA值。

第二个成员SizeOfBlock,指重定位块的大小。

最后一项是TypeOffset数组,不属于结构体成员,是以注释形式存在,表示在该结构体下会出现WOED类型的数组。

TypeOffset值为2个字节,16位大小,由4位Type与12位的Offset合成的。

高4位用作Type,PE文件常见值为3,64位的PE+文件中常见值为A

低12位是真正的位移。

 

2.PE重定位操作原理

1、在应用程序中查找硬编码的地址位置;

换算等式:VirtualAddress+Offset=RVA

用RVA查找寻找硬编码地址

2、读取值后,减去ImageBase(VA转换为RVA);

3、加上实际加载地址(RVA转换为VA)。

查找硬编码的地址的位置,会使用到重定位表,它是记录硬编码地址偏移的列表。

 

标签:逆向,文件,核心,PE,地址,内存,寄存器,原理,节区
来源: https://www.cnblogs.com/zzy-AVA/p/16404248.html