龙空技术网

阿里工程师详细讲解代码是如何编译成程序的?

梅溪湖码圣 394

前言:

此刻我们对“c编译原理语义分析”可能比较重视,大家都想要分析一些“c编译原理语义分析”的相关知识。那么小编在网上汇集了一些有关“c编译原理语义分析””的相关内容,希望同学们能喜欢,各位老铁们一起来了解一下吧!

这段程序应该是码农的入门曲:

#include<stdio.h>int main(void){printf("Hello,World!\n");return 0;}

我想大部分人都能闭着眼睛敲出来,连鼠标都不用移动。编译链接,运行结果如下:

$gcc -o hello hello.c$./helloHello World!

很好,C语言基础很扎实。我们这里来分析一下这几行敲下gcc这一行命令之后到底发生了什么(Shell的运行机制下回探讨),来看看C语言翻译为机器码,看看可执行文件里都有哪些东东。

上面GCC的构建过程分为4个步骤,分别是预处理、编译、汇编和链接,如下图所示:

预编译

首先是对源文件hello.c中的预处理指令即#开头的指令,如#include、#define等进行展开替换删除等处理,被预编译成一个.i文件。预处理过程相当于如下编译命令:

$gcc -E -o hello.i hello.c

预处理完成之后,注释内容被删除,宏定义会被展开。

编译

预处理之后就需要对生成的预处理文件进行词法分析,语法分析,语义分析及优化后生成相应的汇编代码文件,也就是将高级语言翻译成机器码的最核心的部分。我们可以通过命令:

gcc -S -o hello.s hello.c

将源文件编译成汇编代码。

汇编

汇编是将汇编代码翻译成可执行的指令,每一条汇编语句基本对应一条机器指令,因此汇编器相对编译器较为简单,只需要按照汇编指令和机器指令的对照表进行一一翻译,这也是“汇编”一词的由来。可以用下面的命令获得汇编后的目标文件:

gcc -o hello.o -c hello.c

上述命令相当于:

as hello.s -o hello.o

目标文件格式跟可执行文件一样,都属于ELF文件。Linux系统下ELF类型文件还包括核心转储文件(core dump)、动态链接库(.so文件)。ELF文件包括文件头、代码段、数据段和.bss段(未初始化的全局变量),使用命令:objdump -h hello.o 可以查看目标文件的主要段,可以看到hello.o的代码段和数据段。

使用objdump -d hello.o命令查看目标文件hello.o的内容如下:

其中:

18: e8 00 00 00 00  callq 0 <_main+0x1d>    表示对函数printf的引用

可以看到,编译阶段,printf函数在外部定义,未定义函数printf的调用地址为0。这里啰嗦下,objdump是个很好用的工具,对于初学编译原理很有用。

链接

链接是将各个目标文件所需要的代码块收集在一起,生成最终的可执行文件。我们的helloworld里面调用了printf函数,但是并没有它的实现,其实现在libc.so(动态库)或者libc.a(静态库)中。所谓的库就是将一些比较常用的函数实现编译成目标文件并打包,因此我们使用ar命令就可以将库拆分成目标文件:

$ar -t libc.ainit-first.olibc-start.osysdep.oversion.ocheck_fds.olibc-tls.oelf-init.odso_handle.oerrno.oinit-arch.oerrno-loc.ohp-timing.oiconv_open.oiconv.oiconv_close.ogconv_db.o…………

查看链接后可执行文件hello的内容:

其中:

100000f78: e8 0d 00 00 00  callq 13 <dyld_stub_binder+0x100000f8a>

可以看到代码段调用地址已被赋值。我这里使用的iOS系统,实现与Linux略有不同,dyld_stub_binder 会在目标符号(例如 printf)被调用时,将其链接到指定的动态链接库 libSystem,再调用printf函数,printf符号位于在data段的lazy符号表中可获取。

静态链接过程包括:

空间与地址分配

符号解析和重定位

静态库链接

下面一一讲解。

空间地址的分配

刚才讲了,链接过程就是将多个目标加工后合并成一个可执行文件,对于有多个目标文件的链接情况,存在两种地址空间分配策略:按序叠加和相似段合并。

按序叠加很好理解,就是直接合并:

直接合并会造成一个问题,就是可执行文件会有很多零散的段,而每个段都需要地址和空间对齐,如x86硬件下对齐单位是页,也就是4096字节,零散段会造成空间浪费。

相似段合并就是将相同性质的段合并到一起:

这里.bss段存放的是未初始化的全局变量,因为没有内容,因此不占用文件空间只占用虚拟地址空间,即进程空间,参见文章《进程是如何使用内存的?》:

符号解析和指令的修正

ELF文件中定义了一个重定位表段,里面定义了需要在链接阶段进行重定位的符号。hello.c编译成hello.o文件后,里面的printf函数并没有在hello.o中实现,因此会放在重定位段中。链接的时候,会在所有的.o文件中查找未定义符号表,并将符号定义的首地址相对引用地址求得偏移值后填入引用处。比如我们在main函数中引用的printf函数,编译阶段地址为0,链接阶段会填上0x2004。

如果存在未找到的符号,连接失败编译器报错,就是我们经常见到的:

undefined reference to "XXXX"

刚才我们看到libc.a文件打散之后是一堆.o文件,就包括printf.o文件,里面定义了printf函数的实现。经过迭代查找,设置好程序入口,链接工作就完成了。

链接过程比较复杂,包括绝对地址重定位和C++中重复代码处理等等,需要在项目中试错理解,后续有空再续写。

标签: #c编译原理语义分析