本文整理自多材料源,感謝原址分享,請查看末尾Url
I, 匯編語言分類:
匯編語言和CPU息息相關,但是不能把匯編語言完全等同於CPU的機器指令。不同架構的CPU指令並不相同,如x86,powerpc,arm各有各的指令系統;甚至同一種架構的CPU有幾套指令集,典型的如arm除了有32位的指令集外,還有一套16位的thumb指令集。但是作為開發語言的匯編,本質上是一套語法規則和助記符的集合,它可以包容不同的指令集。如果從CPU體系來划分,常見的匯編有兩種:IBM PC匯編和ARM匯編。
IBM PC匯編也就是Intel的匯編,因為IBM 最早推出PC機,后來的體系很多都要和它兼容,所以也使用了相同的匯編語言。ARM壓根沒考慮過兼容,它的指令集和x86完全是兩個體系,所以匯編語言也獨立發展出一套。
CPU只是限定了機器碼,作為開發語言的匯編,其實還和編譯器息息相關。匯編語言出現的早,沒有像C語言一樣定義出標准,所以編譯器的廠商各搞一套。到現在,最有名的也是兩家:MASM和GNU ASM。前者是微軟的,只支持x86,用在DOS/Windows平台中;后者是開源產品,主要用在Linux中,基本上支持大部分的CPU架構。這兩者的區別在於偽指令的不同,偽指令是用來告訴編譯器如何工作的,和編譯器相關,和CPU無關。其實匯編的編譯相當簡單,這兩套偽指令只是符號不相同,含義是大同小異,明白了一種,看另一種就很容易了。
從匯編格式分,還有Intel格式和AT&T格式的區別,前者是Intel的,windows平台常見,后者最早由貝爾實驗室推出,用於Unix中,GUN匯編器的缺省格式就是AT&T。不過GNU的匯編器和調試器gdb對這兩種格式都支持,可以隨便切換。MASM只支持Intel格式。Intel格式和AT&T格式的區別只是符號系統的區別,這與x86和arm的區別可不一樣,后者是CPU體系的區別。
所謂 內嵌匯編,它是用於C語言和匯編語言混合編程的,所以和編譯器也關系緊密,目前也是有兩種,GNU的內嵌匯編和MASM的內嵌匯編,它們的語法和普通匯編是有區別的,特別是GNU的內嵌匯編不是很容易看懂,需要專門學習才行。MASM的內嵌匯編和普通匯編的區別則不大。
關於匯編語言的種類,可以說有多少種不同內核的CPU,就有多少種匯編語言。匯編並不是只有8086/8088匯編,還有8051,ARM,Alpha,MIPS匯編等等...
如你所知, 匯編是一種面向機器的編程語言,之所以說面向機器是指它的指令系統與具體的CPU芯片相關聯,通常不同CPU硬件有不同的匯編系統。8086&8088分別是Intel公司的16位和准16位的CPU,通常使用它作為教材講解微機機系統原理,是因為80x86系列CPU應用廣泛,具有代表性。
8051主要應用在單片機,ARM匯編用於ARM處理器...不需要解釋。
8086是INTEL公司推出的最早實際應用到微型個人計算機上CPU芯片型號;80x86是在8086基礎上的增強型,包括80286,80386,80486,其后就改稱奔騰了。大的區別上:8086和80286是16位的CPU,80386和80486是32位CPU;80486還多了數學輔助處理器,增強了復雜的數學運算能力。小的區別上就比較多了,如頻率越來越快,包括寄存器的增加等。
和C語言不同,匯編語言更多的針對特定CPU內核,因此,不同內核的CPU,必須有對應的匯編語言編譯器將匯編語言別寫的程序編譯成對應CPU的機器語言代碼,CPU才能正確識別和執行這些代碼。
II, 寄存器概念
寄存器是CPU里的東西,內存是掛在CPU外面的數據總線上的,
訪問內存時要在CPU的寄存器填上地址,再執行相應的匯編指令,這時CPU會在數據總線上生成讀取或寫入內存數據的時鍾信號,最終內存的內容會被CPU寄存器的內容更新(寫入)或被讀入CPU的寄存器(讀取)
不只是PC上的CPU,所有的嵌入式CPU,單片機都一個樣
首先明確一點:
CPU <--- > 寄存器<--- > 緩存<--- >內存
寄存器的工作方式很簡單,只有兩步:(1)找到相關的位,(2)讀取這些位。
內存的工作方式就要復雜得多:
(1)找到數據的指針。(指針可能存放在寄存器內,所以這一步就已經包括寄存器的全部工作了。)
(2)將指針送往內存管理單元(MMU),由MMU將虛擬的內存地址翻譯成實際的物理地址。
(3)將物理地址送往內存控制器(memory controller),由內存控制器找出該地址在哪一根內存插槽(bank)上。
(4)確定數據在哪一個內存塊(chunk)上,從該塊讀取數據。
(5)數據先送回內存控制器,再送回CPU,然后開始使用。
內存的工作流程比寄存器多出許多步。每一步都會產生延遲,累積起來就使得內存比寄存器慢得多。
為了緩解寄存器與內存之間的巨大速度差異,硬件設計師做出了許多努力,包括在CPU內部設置緩存、優化CPU工作方式,盡量一次性從內存讀取指令所要用到的全部數據等等。
寄存器、存儲器、內存之間的關系:
存儲器 涵蓋了所有關於存儲的范疇,寄存器和內存都屬於該范疇。
寄存器是中央處理器內的組成部份。它跟CPU有關。寄存器是有限存貯容量的高速存貯部件,它們可用來暫存指令、數據和位址。在中央處理器的控制部件中,包含的寄存器有指令寄存器(IR)和程序計數器(PC)。在中央處理器的算術及邏輯部件中,包含的寄存器有累加器(ACC)。
內存,即 內部存儲器 ,一般分為只讀存儲器和隨即存儲器,以及最強悍的高速緩沖存儲器(CACHE),只讀存儲器應用廣泛,它通常是一塊在硬件上集成的可讀芯片,作用是識別與控制硬件,它的特點是只可讀取,不能寫入。隨機存儲器的特點是可讀可寫,斷電后一切數據都消失,我們所說的內存條就是指它了。
CACHE是在CPU中速度非常塊,而容量卻很小的一種存儲器,它是計算機存儲器中最強悍的存儲器。由於技術限制,容量很難提升,一般都不過兆。
因此,堆棧概念不應與寄存器混淆,堆Heap 棧 Stack 概念存在於程序的內存分配環節
主要寄存器如下圖所示:
X86處理器中有8個32位的通用寄存器。由於歷史的原因,EAX通常用於計算,ECX通常用於循環變量計數。ESP和EBP有專門用途,ESP指示棧指針(用於指示棧頂位置),而EBP則是基址指針(用於指示子程序或函數調用的基址指針)。如圖中所示,EAX、EBX、ECX和EDX的前兩個高位字節和后兩個低位字節可以獨立使用,其中兩位低字節又被獨立分為H和L部分,這樣做的原因主要是考慮兼容16位的程序,具體兼容匹配細節請查閱相關文獻。
應用寄存器時,其名稱大小寫是不敏感的,如EAX和eax沒有區別。
更詳細一些的介紹圖:
下面通過一個具體的C代碼反匯編的匯編代碼分析加深對這些常用代碼的理解,實驗環境是實驗樓32位Linux虛擬機。
具體C代碼如下:
通過 gcc –S –o main.s main.c -m32 指令將代碼編譯成匯編代碼,精簡后的匯編代碼如下:
下面將着重分析上面這段代碼。首先,匯編代碼也是從main開始執行,首先將ebp寄存器值入棧,然后ebp指向esp位置,esp值減4之后將數字10存在esp指向的位置,最后調將eip入棧,同時eip指向函數f的起始位置。
f函數首先也是ebp入棧,然后ebp指向esp位置,esp值減4之后將ebp位置加8位置的值,也就是數字10保存到eax寄存器中,然后將eax中的值也就是10保存到esp中,最后將eip入棧,調用函數g。
g函數也是相同的操作,ebp入棧,ebp指向esp位置,ebp地址減8處的值10放進eax,然后eax中的數值增加5,然后出棧到ebp,ebp只想24地址處。然后ret,也就是esp處值出棧到eip,eip=15。
然后又回到f函數的15指令處執行,eax寄存器的值增加4,變成19,然后執行leave指令,也就是esp指向ebp處,然后esp處值出棧到ebp,然后esp處值出棧到eip,程序下面跳轉至24行指令。
指令又回到main函數執行,首先eax值加8,變成27,然后執行leave指令,也就是esp指向ebp處,然后esp處值出棧到ebp,然后esp處值出棧到eip,程序下面跳轉至main函數開始前的地方繼續執行。
III, 內存和尋址模式
III.1聲明靜態數據區
可以在X86匯編語言中用匯編指令.DATA聲明靜態數據區(類似於全局變量),數據以單字節、雙字節、或雙字(4字節)的方式存放,分別用DB,DW, DD指令表示聲明內存的長度。在匯編語言中,相鄰定義的標簽在內存中是連續存放的。
.DATA | |||
var | DB 64 | ;聲明一個字節,並將數值64放入此字節中 | |
var2 | DB ? | ; 聲明一個為初始化的字節. | |
DB 10 | ; 聲明一個沒有label的字節,其值為10. | ||
X | DW ? | ; 聲明一個雙字節,未初始化. | |
Y | DD 30000 | ; 聲明一個4字節,其值為30000. |
還可以聲明連續的數據和數組,聲明數組時使用DUP關鍵字
Z | DD 1, 2, 3 | ; Declare three 4-byte values, initialized to 1, 2, and 3. The value of location Z + 8 will be 3. |
bytes | DB 10 DUP(?) | ; Declare 10 uninitialized bytes starting at location bytes. |
arr | DD 100 DUP(0) | ; Declare 100 4-byte words starting at location arr, all initialized to 0 |
str | DB 'hello',0 | ; Declare 6 bytes starting at the address str, initialized to the ASCII character values for hello and the null (0) byte. |
III,2 尋址模式
現代X86處理器具有232字節的尋址空間。在上面的例子中,我們用標簽(label)表示內存區域,這些標簽在實際匯編時,均被32位的實際地址代替。除了支持這種直接的內存區域描述,X86還提供了一種靈活的內存尋址方式,即利用最多兩個32位的寄存器和一個32位的有符號常數相加計算一個內存地址,其中一個寄存器可以左移1、2或3位以表述更大的空間。下面例子是匯編程序中常見的方式
mov eax, [ebx] ; 將ebx值指示的內存地址中的4個字節傳送到eax中 mov [var], ebx ; 將ebx的內容傳送到var的值指示的內存地址中. mov eax, [esi-4] ; 將esi-4值指示的內存地址中的4個字節傳送到eax中 mov [esi+eax], cl ; 將cl的值傳送到esi+eax的值指示的內存地址中 mov edx, [esi+4*ebx] ; 將esi+4*ebx值指示的內存中的4個字節傳送到edx
下面是違反規則的例子:
mov eax, [ebx-ecx] | ; 只能用加法 |
mov [eax+esi+edi], ebx | ; 最多只能有兩個寄存器參與運算 |
III,3 長度規定
在聲明內存大小時,在匯編語言中,一般用DB,DW,DD均可聲明的內存空間大小,這種現實聲明能夠很好地指導匯編器分配內存空間,但是,對於
mov [ebx], 2
如果沒有特殊的標識,則不確定常數2是單字節、雙字節,還是雙字。對於這種情況,X86提供了三個指示規則標記,分別為BYTE PTR, WORD PTR, and DWORD PTR,如上面例子寫成:mov BYTE PTR [ebx], 2, mov WORD PTR [ebx], 2, mov DWORD PTR [ebx], 2,則意思非常清晰。
IV. 匯編指令
匯編指令通常可以分為數據傳送指令、邏輯計算指令和控制流指令。本節將講述其中最重要的指令,以下標記分別表示寄存器、內存和常數。
<reg32> | 32位寄存器 (EAX, EBX, ECX, EDX, ESI, EDI, ESP, or EBP) |
<reg16> | 16位寄存器 (AX, BX, CX, or DX) |
<reg8> | 8位寄存器(AH, BH, CH, DH, AL, BL, CL, or DL) |
<reg> | 任何寄存器 |
<mem> | 內存地址 (e.g., [eax], [var + 4], or dword ptr [eax+ebx]) |
<con32> | 32為常數 |
<con16> | 16位常數 |
<con8> | 8位常數 |
<con> | 任何8位、16位或32位常數 |
IV. 1 數據傳送指令
mov — Move (Opcodes: 88, 89, 8A, 8B, 8C, 8E, ...)
mov指令將第二個操作數(可以是寄存器的內容、內存中的內容或值)復制到第一個操作數(寄存器或內存)。mov不能用於直接從內存復制到內存,其語法如下所示:
mov <reg>,<reg> mov <reg>,<mem> mov <mem>,<reg> mov <reg>,<const> mov <mem>,<const>
Examples
mov eax, ebx — 將ebx的值拷貝到eax
mov byte ptr [var], 5 — 將5保存找var指示內存中的一個字節中
push— Push stack (Opcodes: FF, 89, 8A, 8B, 8C, 8E, ...)
push指令將操作數壓入內存的棧中,棧是程序設計中一種非常重要的數據結構,其主要用於函數調用過程中,其中ESP只是棧頂。在壓棧前,首先將ESP值減4(X86棧增長方向與內存地址編號增長方向相反),然后將操作數內容壓入ESP指示的位置。其語法如下所示:
push <reg32> push <mem> push <con32>
Examples
push eax — 將eax內容壓棧
push [var] — 將var指示的4直接內容壓棧
pop— Pop stack
pop指令與push指令相反,它執行的是出棧的工作。它首先將ESP指示的地址中的內容出棧,然后將ESP值加4. 其語法如下所示:
pop <reg32>
pop <mem>
Examples
pop edi — pop the top element of the stack into EDI.
pop [ebx] — pop the top element of the stack into memory at the four bytes starting at location EBX.
lea— Load effective address
lea實際上是一個載入有效地址指令,將第二個操作數表示的地址載入到第一個操作數(寄存器)中。其語法如下所示:
Syntax
lea <reg32>,<mem>
Examples
lea eax, [var] — var指示的地址載入eax中.
lea edi, [ebx+4*esi] — ebx+4*esi表示的地址載入到edi中,這實際是上面所說的尋址模式的一種表示方式.
IV. 2 算術和邏輯指令
add— Integer Addition
add指令將兩個操作數相加,且將相加后的結果保存到第一個操作數中。其語法如下所示:
add <reg>,<reg> add <reg>,<mem> add <mem>,<reg> add <reg>,<con> add <mem>,<con>
Examples
add eax, 10 — EAX ← EAX + 10
add BYTE PTR [var], 10 — 10與var指示的內存中的一個byte的值相加,並將結果保存在var指示的內存中
sub— Integer Subtraction
sub指令指示第一個操作數減去第二個操作數,並將相減后的值保存在第一個操作數,其語法如下所示:
sub <reg>,<reg> sub <reg>,<mem> sub <mem>,<reg> sub <reg>,<con> sub <mem>,<con>
Examples
sub al, ah — AL ← AL - AH
sub eax, 216 — eax中的值減26,並將計算值保存在eax中
inc, dec— Increment, Decrement
inc,dec分別表示將操作數自加1,自減1,其語法如下所示:
inc <reg> inc <mem> dec <reg> dec <mem>
Examples
dec eax — eax中的值自減1.
inc DWORD PTR [var] — var指示內存中的一個4-byte值自加1
imul— Integer Multiplication
整數相乘指令,它有兩種指令格式,一種為兩個操作數,將兩個操作數的值相乘,並將結果保存在第一個操作數中,第一個操作數必須為寄存器;第二種格式為三個操作數,其語義為:將第二個和第三個操作數相乘,並將結果保存在第一個操作數中,第一個操作數必須為寄存器。其語法如下所示:
imul <reg32>,<reg32> imul <reg32>,<mem> imul <reg32>,<reg32>,<con> imul <reg32>,<mem>,<con>
Examples
idiv— Integer Division
idiv指令完成整數除法操作,idiv只有一個操作數,此操作數為除數,而被除數則為EDX:EAX中的內容(一個64位的整數),操作的結果有兩部分:商和余數,其中商放在eax寄存器中,而余數則放在edx寄存器中。其語法如下所示:
Syntax idiv <reg32> idiv <mem>
Examples
idiv ebx idiv DWORD PTR [var]
and <reg>,<reg>
and <reg>,<mem>
and <mem>,<reg>
and <reg>,<con>
and <mem>,<con>
or <reg>,<reg>
or <reg>,<mem>
or <mem>,<reg>
or <reg>,<con>
or <mem>,<con>
xor <reg>,<reg>
xor <reg>,<mem>
xor <mem>,<reg>
xor <reg>,<con>
xor <mem>,<con>
Examples
and eax, 0fH — 將eax中的錢28位全部置為0,最后4位保持不變. xor edx, edx — 設置edx中的內容為0.
not— Bitwise Logical Not
位翻轉指令,將操作數中的每一位翻轉,即0->1, 1->0。其語法如下所示:
not <reg>
not <mem>
Example
not BYTE PTR [var] — 將var指示的一個字節中的所有位翻轉.
neg— Negate
取負指令。語法為:
neg <reg>
neg <mem>
Example
neg eax — EAX → - EAX shl, shr— Shift Left, Shift Right
位移指令,有兩個操作數,第一個操作數表示被操作數,第二個操作數指示位移的數量。其語法如下所示:
shl <reg>,<con8> shl <mem>,<con8> shl <reg>,<cl> shl <mem>,<cl> shr <reg>,<con8> shr <mem>,<con8> shr <reg>,<cl> shr <mem>,<cl>
Examples
shl eax, 1 — Multiply the value of EAX by 2 (if the most significant bit is 0),左移1位,相當於乘以2 shr ebx, cl — Store in EBX the floor of result of dividing the value of EBX by 2n where n is the value in CL.
mov esi, [ebp+8] begin: xor ecx, ecx mov eax, [esi]
如第二條指令用begin指示,這種標簽的方法在某種程度上簡化了匯編程序設計,控制流指令通過標簽實現程序指令跳轉。
jmp — Jump
控制轉移到label所指示的地址,(從label中取出執行執行),如下所示:
jmp <label>
Example
jmp begin — Jump to the instruction labeled begin.
jcondition— Conditional Jump
條件轉移指令,條件轉移指令依據機器狀態字中的一些列條件狀態轉移。機器狀態字中包括指示最后一個算數運算結果是否為0,運算結果是否為負數等。機器狀態字具體解釋請見微機原理、計算機組成等課程。語法如下所示:
je <label> (jump when equal) jne <label> (jump when not equal) jz <label> (jump when last result was zero) jg <label> (jump when greater than) jge <label> (jump when greater than or equal to) jl <label> (jump when less than) jle <label>(jump when less than or equal to)
Example
cmp eax, ebx jle done , 如果eax中的值小於ebx中的值,跳轉到done指示的區域執行,否則,執行下一條指令。
cmp <reg>,<reg> cmp <reg>,<mem> cmp <mem>,<reg> cmp <reg>,<con>
Example
cmp DWORD PTR [var], 10 jeq loop,

在X86中,棧增長方向與內存編號增長方向相反。
Caller Rules
調用者規則包括一系列操作,描述如下:
1)在調用子程序之前,調用者應該保存一系列被設計為調用者保存的寄存器的值。調用者保存寄存器有eax,ecx,edx。由於被調用的子程序會修改這些寄存器,所以為了在調用子程序完成之后能正確執行,調用者必須在調用子程序之前將這些寄存器的值入棧。
2)在調用子程序之前,將參數入棧。參數入棧的順序應該是從最后一個參數開始,如上圖中parameter3先入棧。
3)利用call指令調用子程序。這條指令將返回地址放置在參數的上面,並進入子程序的指令執行。(子程序的執行將按照被調用者的規則執行)
當子程序返回時,調用者期望找到子程序保存在eax中的返回地址。為了恢復調用子程序執行之前的狀態,調用者應該執行以下操作:
1)清除棧中的參數;
2)將棧中保存的eax值、ecx值以及edx值出棧,恢復eax、ecx、edx的值(當然,如果其它寄存器在調用之前需要保存,也需要完成類似入棧和出棧操作)
Example
如下代碼展示了一個調用子程序的調用者應該執行的操作。此匯編程序調用一個具有三個參數的函數_myFunc,其中第一個參數為eax,第二個參數為常數216,第三個參數為var指示的內存中的值。
push [var] ; Push last parameter first
push 216 ; Push the second parameter
push eax ; Push first parameter last
call _myFunc ; Call the function (assume C naming)
add esp, 12
在調用返回時,調用者必須清除棧中的相應內容,在上例中,參數占有12個字節,為了消除這些參數,只需將ESP加12即可。
_myFunc的值保存在eax中,ecx和edx中的值也許已經被改變,調用者還必須在調用之前保存在棧中,並在調用結束之后,出棧恢復ecx和edx的值。
VI, 被調用者規則
被調用者應該遵循如下規則:
1)將ebp入棧,並將esp中的值拷貝到ebp中,其匯編代碼如下:
push ebp mov ebp, esp
上述代碼的目的是保存調用子程序之前的基址指針,基址指針用於尋找棧上的參數和局部變量。當一個子程序開始執行時,基址指針保存棧指針指示子程序的執行。為了在子程序完成之后調用者能正確定位調用者的參數和局部變量,ebp的值需要返回。
2)在棧上為局部變量分配空間。
3)保存callee-saved寄存器的值,callee-saved寄存器包括ebx,edi和esi,將ebx,edi和esi壓棧。
4)在上述三個步驟完成之后,子程序開始執行,當子程序返回時,必須完成如下工作:
4.1)將返回的執行結果保存在eax中
4.2)彈出棧中保存的callee-saved寄存器值,恢復callee-saved寄存器的值(ESI和EDI)
4.3)收回局部變量的內存空間。實際處理時,通過改變EBP的值即可:mov esp, ebp。
4.4)通過彈出棧中保存的ebp值恢復調用者的基址寄存器值。
4.5)執行ret指令返回到調用者程序。
After these three actions are performed, the body of the subroutine may proceed. When the subroutine is returns, it must follow these steps:
- Leave the return value in EAX.
Example
.486 .MODEL FLAT .CODE PUBLIC _myFunc _myFunc PROC ; Subroutine Prologue
push ebp ; Save the old base pointer value.
mov ebp, esp ; Set the new base pointer value.
sub esp, 4 ; Make room for one 4-byte local variable.
push edi ; Save the values of registers that the function
push esi ; will modify. This function uses EDI and ESI.
; (no need to save EBX, EBP, or ESP)
; Subroutine Body
mov eax, [ebp+8] ; Move value of parameter 1 into EAX
mov esi, [ebp+12] ; Move value of parameter 2 into ESI
mov edi, [ebp+16] ; Move value of parameter 3 into EDI
mov [ebp-4], edi ; Move EDI into the local variable
add [ebp-4], esi ; Add ESI into the local variable
add eax, [ebp-4] ; Add the contents of the local variable
; into EAX (final result)
; Subroutine Epilogue
pop esi ; Recover register values
pop edi mov esp, ebp ; Deallocate local variables
pop ebp ; Restore the caller's base pointer value
ret _myFunc ENDP END
子程序首先通過入棧的手段保存ebp,分配局部變量,保存寄存器的值。
在子程序體中,參數和局部變量均是通過ebp進行計算。由於參數傳遞在子程序被調用之前,所以參數總是在ebp指示的地址的下方(在棧中),因此,上例中的第一個參數的地址是ebp+8,第二個參數的地址是ebp+12,第三個參數的地址是ebp+16;而局部變量在ebp指示的地址的上方,所有第一個局部變量的地址是ebp-4,而第二個這是ebp-8.
具體的CPU-Register-Cache關系請看鏈接
參考文獻: 1. MIPS編程入門 https://www.cnblogs.com/thoupin/p/4018455.html
2.Linux系統分析入門--簡單匯編代碼分析 https://blog.csdn.net/ven_kon/article/details/57080849
3 .X86匯編快速入門 https://www.cnblogs.com/YukiJohnson/archive/2012/10/27/2741836.html
4. 內存、棧、堆的一點小總結 https://blog.csdn.net/hust_sheng/article/details/47947037
5.寄存器、存儲器、內存的區別 https://blog.csdn.net/u012137644/article/details/21864955?locationNum=3
6. Linux 2.x 內核對內存的管理 https://blog.csdn.net/yang_yulei/article/details/24385573
7.計算機中內存、cache和寄存器之間的關系及區別 https://blog.csdn.net/hellojoy/article/details/54744231
8. 堆,棧區別理解 https://www.cnblogs.com/pomp/archive/2007/10/19/930145.html