簡單!代碼原來是這樣被CPU跑起來的


CPU對我們來說既熟悉又陌生,熟悉的是我們知道代碼是被CPU執行的,當我們的線上服務出現問題時可能首先會查看CPU負載情況。陌生的是我們並不知道CPU是如何執行代碼的,它對我們的代碼做了什么。本文意在簡單解釋我們代碼的生命周期,以及代碼是如何在CPU上跑起來的。

編譯-讓計算機認識我

一個漂亮 control+c 加上一個漂亮的 control+v,啪~,我們愉快的寫下了代碼,當代碼被保存后,它就被存在我們磁盤的某個地方,它可能是像java或者python這些高級語言寫的,也可能是像c這種古老語言寫的,但是現在它肯定沒法被運行,因為計算機不認識它們,計算機只認識0、1這樣的二進制,簡稱機器碼,那為什么我們不直接寫機器碼?如果你有這樣的思考,我只能呵呵了,請你幫我翻譯下以下機器碼:

001010100101001001001
100100101000101010101

很明顯作為高質量人類的我們也無法識別出這段代碼寫的是什么,於是出現類似java這樣的高級語言,它們給機器碼穿上了一層外衣,然后交給偉大的程序員來創造未來。

所以反過來我們的代碼需要被替換成機器碼,這樣才能被計算機認識,計算機才能幫我們干事。這個轉換的過程我們通常叫編譯

#include <studio.h>
int main() 
{
   printf("Hello World\n");
   return 0;
}

這是一段應該每個程序員都寫過的代碼(hello.c),在Linux下,當我們使用GCC來編譯Hello World程序時,只需要最簡單的命令:

gcc hello.c
./hello
# Hello World

看似很簡單的一行,但是其實編譯的過程很復雜,並不是我們想象中的編譯,真實是分為4個步驟,分別是預處理(Prepressing)、編譯(Compliation)、匯編(Assertmbly)和鏈接(Linking)。

  1. 預編譯:這個過程主要是處理源代碼中以“#”開始的預編譯指令,比如“#include”、“define”等。
  2. 編譯:這個過程就是把預處理完的文件進行詞法分析、語法分析、語義分析及優化后生產成相應的匯編代碼,這個過程是最復雜的。
  3. 匯編:這個過程就是將匯編代碼轉換成機器碼,也就是上圖的目標文件hello.o
  4. 鏈接:我們的代碼程序經常是由多個代碼文件組成的,當每個文件都被匯編成“.o”文件時,需要一套機制將它們 組裝在一起,這個過程就叫做鏈接。

好吧,原來編譯是這么回事,通過這一整套的編譯操作,我們代碼終於能執行了,我們簡簡單單的運行./hello.out即可輸出Hello World。等等,這個簡簡單單的過程發生了什么?

連接-中轉站和高速公路

ok,ok,通過編譯,我們的程序終於能執行了,接下來讓我們站在CPU的視角來看看Hello World是如何被打印出來的。

首先編譯好的文件是存在磁盤上的,得先加載到內存中,這里你可能會問:為什么CPU不能直接讀取磁盤的程序運行而要經過內存?答案是慢,緩慢的磁盤會影響我們程序執行的速度,因此需要更加快速、離CPU更近的存儲,那就是內存。

內存是一大塊存儲空間,可以存儲很多數據信息,那么如何找到我們要寫的程序呢?答案是地址,其實每個字節在內存中都有一個地址,這樣當CPU去內存中讀我們的程序時,只需要根據對應的地址就可以知道我們程序的具體內容。

等等...,這里似乎又有個問題,CPU是如何與我們的內存、磁盤通信的?應該有個媒介之類的吧。沒錯,這個媒介就是主板上的總線芯片組,總線好理解,就像高速公路,數據信息可以通過這條高速公路傳遞到CPU中,這個芯片組是個什么玩意?電腦主板上芯片很多,這里說的主要是南橋芯片和北橋芯片。先來個解釋:

  1. 北橋芯片:北橋負責高速設備和CPU之間的溝通,主要就是CPU和內存、顯卡之間的通信,但是隨着技術的迭代,主板上的北橋芯片已經被內置到了CPU里了。
  2. 南橋芯片:南橋負責低速設備和北橋之間的通信,主要負責I/O總線之間的通信,如USB、LAN、ATA、SATA、音頻控制器、鍵盤控制器、實時時鍾控制器、高級電源管理等。

嗯... 為什么CPU與高速設備、低速設備之間的通信需要這兩個芯片?CPU自己不能干嗎?這里還是類似拆分任務的功能,如果把所有的任務都交給CPU來處理,CPU會太忙了,還有比較重要的一點,如果南橋芯片壞了,那么我們可以直接更換南橋,而不用換掉整個CPU。

終於CPU通過總線和芯片打通了磁盤、內存之間的通信了,接下來的一切開始交給CPU。

CPU-最強大腦

CPU全稱是Central Processing Unit,即中央處理單元,它的本質就是一塊超大規模的集成電路。從邏輯上來分,它的內部是由寄存器、控制器、運算器和時鍾組成的,下面來解釋下各個組成是干什么的。

  • 寄存器:CPU內部其實有很多類型的寄存器,我們只需了解寄存器就是暫存數據、指令等信息的,它的本質是臨時存儲,由於是直接集成在CPU內部,所以讀寫它們的速度很快,一般一個CPU內部會有20-100個寄存器,這里給大家列舉下常用寄存器與其功能。

    1. 累加寄存器:存儲執行運算的數據和運算后的數據
    2. 標志寄存器:存儲運算處理后的CPU的狀態
    3. 程序計數器:存儲下一條指令所在內存的地址
    4. 基址寄存器:存儲數據內存的起始地址
    5. 變址寄存器:存儲基址寄存器的相對地址
    6. 通用寄存器:存儲任意數據
    7. 指令寄存器:存儲指令,CPU內部使用,程序員無法通過程序對該寄存器進行讀寫操作
    8. 棧寄存器:存儲棧區域的起始地址
  • 控制器:控制器負責把數據讀出或者寫入寄存器,並根據指令的結果來控制計算機。

  • 運算器:從名字就可以猜出來,運算器的主要工作就是運算,運算從內存讀入寄存器的值

  • 時鍾:它並不是我們見的鍾表概念,它代表了你的CPU的工作頻率,頻率越高說明你的CPU處理的速度越快,但是越快就會帶來另一個問題:散熱。

綜上所述,CPU的大致工作流程如下:在時鍾信號到來的時候,就開始工作,通過控制器把內存的數據讀到各個寄存器中,然后如果有計算相關的邏輯,就交給運算器。發現沒有,CPU的工作其實挺簡單的,本質就是不停的讀指令、執行指令。但是CPU是如何讀到我們的代碼指令的,以及我們的代碼里面的if else、函數調用都是如何執行分支判斷、函數跳轉的,我們來看個例子:

a = 1 #0x0010
b = 2 #0x0011
if a > b { #0x0012
 printf("%s","a"#0x0013
else { 
 add(a,b) #0x0014

printf("%s","end"#0x0017

func add(int a,int b) { #0x0020
  return a+b
}

這是段非常簡單的偽代碼,有分支判斷、有函數跳轉。我們來從CPU的角度看看它是如何執行的:

  1. 首先每段程序都有個開始的地址0x0010,也就是CPU讀取程序的入口
  2. 把a=1這個數字讀入 通用寄存器中, 程序計數器(PC寄存器)自動加1,即指向下一條指令 0x0011
  3. 指令寄存器拿到程序計數器的指令地址,把b=2這個數字讀入通用寄存器中,程序計數器(PC寄存器)自動加1,即指向下一條指令0x0012
  4. 指令寄存器發現此處是比較邏輯,會執行a-b,此時可能會有三個結果分別是大於0,等於0,小於0,然后把這個結果存到 標志寄存器里,這里有個小知識,我們經常說的是CPU是64位或者32位,其實也表示了標志寄存器的長度
  1. 很明顯,a是小於b的,CPU根據標志寄存器的狀態值應該跳轉到else里面,注意這時程序計數器的值不是加1,而是設置成else的地址 0x0014,當執行到0x0015的時候,需要發生函數跳轉,程序計數器會被設置成 0x0020,但是這里並不是簡單的函數跳轉(專業術語叫做call),因為在函數執行完畢之后,還要返回,也就是程序計數器需要從0x0020再變成0x0017。call執行的時候會把后續要執行的指令地址0x0017存到 中。
  2. 當我們的add函數執行完畢之后,會有個return,return的時候會把上一步驟存入棧中的地址0x0017寫入程序計數器中
  3. 指令寄存器根據程序計數器當前的地址執行最后的打印(end),結束。

順序執行的指令代碼,程序計數器會自動累加(當然不一定累加的是1),然后找到下一條要執行的指令。

分支判斷的時候,程序計數器不是簡單的累加地址,需要地址的跳轉。

函數調用不僅僅需要跳轉地址,還要把函數執行完畢之后要執行的地址存下來,方便折回繼續執行。

其實還有個循環執行,也就是我們代碼中的for、while之類的,這時程序計數器會不停的在某些地址之間來回切換。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM