在軟硬件接口中,CPU幫我們做了什么?
從硬件角度來看, CPU就是一個超大規模集成電路,通過電路實現了加法,乘法乃至各種各樣的處理邏輯。
從軟加工程師的角度來講,CPU就是一個執行各種計算機指令(Instruction Code)的邏輯機器。這里的計算機指令,就好比一門CPU能夠聽懂的語言,我們把它叫做機器語言(Machine Language)
不同的CPU能夠聽懂的語言不太一樣。比如我們個人電腦用的Intel的CPU,蘋果手機用的是ARM的CPU。類似這樣兩種CPU各自支持的語言,就是兩組不同的計算機指令集(Instruction set)
一個計算機程序,不可能只有一條指令,而是由成千上萬條指令組成的。但是CPU里不能一直放着所有指令,所以計算機程序平時是存儲在存儲器中的。這種指令存儲在存儲器里面的計算機,我們就叫做存儲程序型計算機
從編譯到匯編,代碼怎么變成機器碼?
// test.c int main() { int a = 1; int b = 2; a = a + b; }
要讓這段程序在一個Linux操作系統上跑起來,我們需要把整個程序翻譯成一個匯編語言(ASM,Assembly Language)的程序,這個過程我們一般叫編譯(Compile)成好匯編代碼。
針對匯編代碼,我們可以再用匯編器(Assembler)翻譯成機器碼(Machine Code)。這些機器碼由“0”和“1”組成的機器語言表示。這一條條機器碼,就是一條條的計算機指令。這樣一串串的16進制數字,就是我們CPU能夠真正認識的計算機指令
在一個Linux操作系統上,我們可以簡單地使用gcc和objdump這樣兩條命令,把對應的匯編代碼和機器碼都打印出來。
[learning_log@localhost 桌面]$ gcc -g -c text.c [learning_log@localhost 桌面]$ objdump -d -M intel -S text.o text.o: 文件格式 elf64-x86-64 Disassembly of section .text: 0000000000000000 <main>: int main() { 0: 55 push rbp 1: 48 89 e5 mov rbp,rsp int a = 1; 4: c7 45 fc 01 00 00 00 mov DWORD PTR [rbp-0x4],0x1 int b = 2; b: c7 45 f8 02 00 00 00 mov DWORD PTR [rbp-0x8],0x2 a = a + b; 12: 8b 45 f8 mov eax,DWORD PTR [rbp-0x8] 15: 01 45 fc add DWORD PTR [rbp-0x4],eax } 18: 5d pop rbp 19: c3 ret
可以看到左側一堆數字,這些就是一條條機器碼;右邊有一系列的push、mov、add、pop等,這些就是對應的匯編代碼。一行C語言代碼,有時候對應一條機器碼和匯編代碼,有時候則是對應兩條機器碼和匯編代碼。匯編代碼和機器碼之間是一一對應的。
從高級語言到匯編代碼,再到機器碼,就是一個日常開發程序,最終變成了CPU可以執行的計算機指令的過程。
解析指令和機器碼
常見的指令可以分為五大類。
第一類是算術類指令。我們的加減乘除,在CPU層面,都會變成一條條算術類指令。
第二類是數據傳輸類指令。給變量賦值,在內存里讀寫數據,用的都是數據傳輸類指令。
第三類是邏輯類指令。邏輯上的與或非,都是這一類指令。
第四類是條件分支類指令。日常我們寫的“if/else”,其實都是條件分支類指令。
最后一類是無條件跳轉指令。寫一些大一點的程序,我們常常需要寫一些函數或者方法。再調用函數的時候,其實就是發起了一個無條件跳轉指令。
我們說過,不同的CPU有不同的指令集,也就對應着不同的匯編語言和不同的機器碼。為了方便你快速理解這個機器碼的計算方式,我們選用最簡單的MIPS指令集,來看機器碼是如何生成的。
MIPS的指令是一個32位的整數,高6位叫操作碼(Opcode),也就是代表這條指令具體是一條什么樣的指令,剩下的26位有三種格式,分別是R、I、J。
R指令是一般用來做算術和邏輯操作,里面有讀取和寫入數據的寄存器的地址。如果是邏輯位移操作,后面還有位移操作的位移量,而最后的功能碼,則是在前面的操作碼不夠的時候,擴展操作碼表示對應的具體指令的。
I指令,則通常是用來數據傳輸,條件分支,以及在運算的時候使用的並非變量還是常數的時候。這個時候,沒有了位移量和操作碼,也沒有了第三個寄存器,而是把這三部分直接合並成一個地址值或者常數。
J指令就是一個跳轉指令,高6位之外的26位都是一個跳轉后的地址。
add $t0,$s2,$s1
對應的MIPS指令里的opcode是0,rs代表第一個寄存器s1的地址是17,rt代表第二個寄存器s2的地址是18,rd代表目標的臨時寄存器t0的地址,是8。因為不是位移操作,所以位移量是0.把這些數字拼在一起,就變成了一個MIPS的加法指令。
為了讀起來方便,我們一般把對應的二進制數,用16進制表示,也就是0X02324020。這個數字也就是這條指令對應的機器碼。
如果想要對日常使用的Intel CPU的指令集有所了解,可以參看《計算機組成與設計:軟/硬件借口》第5版的2.17小節。