CPU流水線


 

  出處: 

    一文讀懂處理器流水線

    多線程之指令重排序 

 

  本文將討論處理器的一個重要的基礎知識:“流水線”。熟悉計算機體系結構的讀者一定知道,言及處理器微架構,幾乎必談其流水線。處理器的流水線結構是處理器微架構最基本的一個要素,猶如汽車底盤對於汽車一般具有基石性的作用,它承載並決定了處理器其他微架構的細節。本文將簡要介紹處理器的一些常見流水線結構,讓您真正讀懂處理器流水線。

 

  一: 從經典的五級流水線說起

  

  流水線的概念來源於工業制造領域,以汽車裝配為例來解釋流水線的工作方式,假設裝配一輛汽車需要四個步驟:

    第一步沖壓:制作車身外殼和底盤等部件。

    第二步焊接:將沖壓成形后的各部件焊接成車身。

    第三步塗裝:將車身等主要部件清洗、化學處理、打磨、噴漆和烘干。

    第四步總裝:將各部件(包括發動機和向外采購的零部件)組裝成車。

  汽車裝配則同時對應需要沖壓、焊接、塗裝和總裝四個工人。最簡單的方法是一輛汽車依次經過上述四個步驟裝配完成之后,下一輛汽車才開始進行裝配,最早期的工業制造就是采用的這種原始的方式,即同一時刻只有一輛汽車在裝配。不久之后人們發現,某個時段中一輛汽車在進行裝配時,其它三個工人都處於閑置狀態,顯然這是對資源的極大浪費,於是思考出能有效利用資源的新方法,即在第一輛汽車經過沖壓進入焊接工序的時候,立刻開始進行第二輛汽車的沖壓,而不是等到第一輛汽車經過全部四個工序后才開始,這樣在后續生產中就能夠保證四個工人一直處於運行狀態,不會造成人員的閑置。這樣的生產方式就好似流水川流不息,因此被稱為流水線。

 

 計算機體系結構教材中被提及最多的經典MIPS五級流水線如圖1所示。在此流水線中一條指令的生命周期分為:

取指:

  指令取指(InstrucTIon Fetch)是指將指令從存儲器中讀取出來的過程。

譯碼:

  指令譯碼(InstrucTIon Decode)是指將存儲器中取出的指令進行翻譯的過程。經過譯碼之后得到指令需要的操作數寄存器索引,可以使用此索引從通用寄存器組(Register File,Regfile)中將操作數讀出。

執行:

  指令譯碼之后所需要進行的計算類型都已得知,並且已經從通用寄存器組中讀取出了所需的操作數,那么接下來便進行指令執行(InstrucTIon Execute)。指令執行是指對指令進行真正運算的過程。譬如,如果指令是一條加法運算指令,則對操作數進行加法操作;如果是減法運算指令,則進行減法操作。

  在“執行”階段的最常見部件為算術邏輯部件運算器(ArithmeTIc Logical Unit,ALU),作為實施具體運算的硬件功能單元。

訪存:

  存儲器訪問指令往往是指令集中最重要的指令類型之一,訪存(Memory Access)是指存儲器訪問指令將數據從存儲器中讀出,或者寫入存儲器的過程。

寫回:

  寫回(Write-Back)是指將指令執行的結果寫回通用寄存器組的過程。如果是普通運算指令,該結果值來自於“執行”階段計算的結果;如果是存儲器讀指令,該結果來自於“訪存”階段從存儲器中讀取出來的數據。

  在工業制造中采用流水線可以提高單位時間的生產量,同樣在處理器中采用流水線設計也有助於提高處理器的性能。以上述的五級流水線為例,由於前一條指令在完成了“取指”進入“譯碼”階段后,下一條指令馬上就可以進入“取指”階段,依次類推,如圖2所示,如果流水線沒有停頓,理論上可以取得每個時鍾周期都完成一條指令的性能。

 

           

 

                     圖1 MIPS五級流水線結構圖

 

 

指令重排

  

流水線是一種指令級並行技術。

指令執行步驟

  1.   取指  IF                                (從內存中取出指令)                
  2.   譯碼和取寄存器操作數  ID    (把指令送到指令譯碼器進行譯碼,產生相應控制信號) 
  3.   執行或者有效地址計算  EX    (指揮並控制CPU、內存、I/O設備的之間的數據流動)
  4.   存儲器訪問  MEM
  5.   寫回  WB

匯編指令不是一步可以執行完畢的,每個步驟涉及的硬件可能不同,所以可以使用流水線技術來執行指令。
                

可以看到,當第2條指令執行時,第1條指令只是完成了取值操作。假如每個步驟需要1毫秒,那么如果指令2等待指令1執行完再執行,就需要等待5毫秒。而使用流水線后,只需要等待1毫秒。

 

A = B + C 的執行過程


  LW表示load,LW R1,B,把B的值加載到R1寄存器中。

  ADD是加法,把R1、R2的值相加,並存放到R3中。

  SW表示store存儲,將R3寄存器的值保存到變量A中。

 

  在ADD指令上的大叉表示一個中斷,也就是在這里停頓了一下,因為R2中的數據還沒准備好。由於ADD的延遲,后面的指令都要慢一個節拍。
                 

 

 

停頓與重排序

再看復雜一點的情況

  a = b + c 

  d = e + f

 

 可見上圖中有不少停頓。為了減少停頓,我們只需要將LW Re,e和LW Rf,f移動到前面執行。

 

 可見指令重排序對提高CPU性能十分必要,但是要遵循happens-before規則

 


為什么會亂序

  

  現在的CPU一般采用流水線來執行指令。一個指令的執行被分成:取指、譯碼、訪存、執行、寫回、等若干個階段。然后,多條指令可以同時存在於流水線中,同時被執行。
指令流水線並不是串行的,並不會因為一個耗時很長的指令在“執行”階段呆很長時間,而導致后續的指令都卡在“執行”之前的階段上。


  相反,流水線是並行的,多個指令可以同時處於同一個階段,只要CPU內部相應的處理部件未被占滿即可。比如說CPU有一個加法器和一個除法器,那么一條加法指令和一條除法指令就可能同時處於“執行”階段, 而兩條加法指令在“執行”階段就只能串行工作。


  相比於串行+阻塞的方式,流水線像這樣並行的工作,效率是非常高的。

 

  然而,這樣一來,亂序可能就產生了。比如一條加法指令原本出現在一條除法指令的后面,但是由於除法的執行時間很長,在它執行完之前,加法可能先執行完了。再比如兩條訪存指令,可能由於第二條指令命中了cache而導致它先於第一條指令完成。


  一般情況下,指令亂序並不是CPU在執行指令之前刻意去調整順序。CPU總是順序的去內存里面取指令,然后將其順序的放入指令流水線。但是指令執行時的各種條件,指令與指令之間的相互影響,可能導致順序放入流水線的指令,最終亂序執行完成。這就是所謂的“順序流入,亂序流出”。

  指令流水線除了在資源不足的情況下會卡住之外(如前所述的一個加法器應付兩條加法指令的情況),指令之間的相關性也是導致流水線阻塞的重要原因。
CPU的亂序執行並不是任意的亂序,而是以保證程序上下文因果關系為前提的。有了這個前提,CPU執行的正確性才有保證。比如:

  a++; 

  b=f(a); 

  c--;

  由於b=f(a)這條指令依賴於前一條指令a++的執行結果,所以b=f(a)將在“執行”階段之前被阻塞,直到a++的執行結果被生成出來;而c--跟前面沒有依賴,它可能在b=f(a)之前就能執行完。(注意,這里的f(a)並不代表一個以a為參數的函數調用,而是代表以a為操作數的指令。C語言的函數調用是需要若干條指令才能實現的,情況要更復雜些。)

  像這樣有依賴關系的指令如果挨得很近,后一條指令必定會因為等待前一條執行的結果,而在流水線中阻塞很久,占用流水線的資源。而編譯器的亂序,作為編譯優化的一種手段,則試圖通過指令重排將這樣的兩條指令拉開距離, 以至於后一條指令進入CPU的時候,前一條指令結果已經得到了,那么也就不再需要阻塞等待了。比如將指令重排為:

  a++; 

  c--; 

  b=f(a);

  相比於CPU的亂序,編譯器的亂序才是真正對指令順序做了調整。但是編譯器的亂序也必須保證程序上下文的因果關系不發生改變。

理解重排序
     重排序通常是編譯器或運行時環境為了優化程序性能而采取的對指令進行重新排序執行的一種手段。重排序分為兩類:編譯期重排序和運行期重排序,分別對應編譯時和運行時環境。

     在並發程序中,程序員會特別關注不同進程或線程之間的數據同步,特別是多個線程同時修改同一變量時,必須采取可靠的同步或其它措施保障數據被正確地修改,這里的一條重要原則是:不要假設指令執行的順序,你無法預知不同線程之間的指令會以何種順序執行。

     但是在單線程程序中,通常我們容易假設指令是順序執行的,否則可以想象程序會發生什么可怕的變化。理想的模型是:各種指令執行的順序是唯一且有序的,這個順序就是它們被編寫在代碼中的順序,與處理器或其它因素無關,這種模型被稱作順序一致性模型,也是基於馮·諾依曼體系的模型。當然,這種假設本身是合理的,在實踐中也鮮有異常發生,但事實上,沒有哪個現代多處理器架構會采用這種模型,因為它是在是太低效了。而在編譯優化和CPU流水線中,幾乎都涉及到指令重排序。

 

一、編譯期重排序
     編譯期重排序的典型就是通過調整指令順序,在不改變程序語義的前提下,盡可能減少寄存器的讀取、存儲次數,充分復用寄存器的存儲值。

     假設第一條指令計算一個值賦給變量A並存放在寄存器中,第二條指令與A無關但需要占用寄存器(假設它將占用A所在的那個寄存器),第三條指令使用A的值且與第二條指令無關。那么如果按照順序一致性模型,A在第一條指令執行過后被放入寄存器,在第二條指令執行時A不再存在,第三條指令執行時A重新被讀入寄存器,而這個過程中,A的值沒有發生變化。通常編譯器都會交換第二和第三條指令的位置,這樣第一條指令結束時A存在於寄存器中,接下來可以直接從寄存器中讀取A的值,降低了重復讀取的開銷。

 

二、重排序對於流水線的意義
     現代CPU幾乎都采用流水線機制加快指令的處理速度,一般來說,一條指令需要若干個CPU時鍾周期處理,而通過流水線並行執行,可以在同等的時鍾周期內執行若干條指令,具體做法簡單地說就是把指令分為不同的執行周期,例如讀取、尋址、解析、執行等步驟,並放在不同的元件中處理,同時在執行單元EU中,功能單元被分為不同的元件,例如加法元件、乘法元件、加載元件、存儲元件等,可以進一步實現不同的計算並行執行。

流水線架構決定了指令應該被並行執行,而不是在順序化模型中所認為的那樣。重排序有利於充分使用流水線,進而達到超標量的效果。

三、確保順序性
     盡管指令在執行時並不一定按照我們所編寫的順序執行,但毋庸置疑的是,在單線程環境下,指令執行的最終效果應當與其在順序執行下的效果一致,否則這種優化便會失去意義。

通常無論是在編譯期還是運行期進行的指令重排序,都會滿足上面的原則。

 

四、Java存儲模型中的重排序
     在Java存儲模型(Java Memory Model, JMM)中,重排序是十分重要的一節,特別是在並發編程中。JMM通過happens-before法則保證順序執行語義,如果想要讓執行操作B的線程觀察到執行操作A的線程的結果,那么A和B就必須滿足happens-before原則,否則,JVM可以對它們進行任意排序以提高程序性能。

     volatile關鍵字可以保證變量的可見性,因為對volatile的操作都在Main Memory中,而Main Memory是被所有線程所共享的,這里的代價就是犧牲了性能,無法利用寄存器或Cache,因為它們都不是全局的,無法保證可見性,可能產生臟讀。

volatile還有一個作用就是局部阻止重排序的發生,對volatile變量的操作指令都不會被重排序,因為如果重排序,又可能產生可見性問題。

     在保證可見性方面,鎖(包括顯式鎖、對象鎖)以及對原子變量的讀寫都可以確保變量的可見性。但是實現方式略有不同,例如同步鎖保證得到鎖時從內存里重新讀入數據刷新緩存,釋放鎖時將數據寫回內存以保數據可見,而volatile變量干脆都是讀寫內存。

Happens-before法則

Java存儲模型有一個happens-before原則,就是如果動作B要看到動作A的執行結果(無論A/B是否在同一個線程里面執行),那么A/B就需要滿足happens-before關系。

在介紹happens-before法則之前介紹一個概念:JMM動作(Java Memeory Model Action),Java存儲模型動作。一個動作(Action)包括:變量的讀寫、監視器加鎖和釋放鎖、線程的start()和join()。后面還會提到鎖的的。

happens-before完整規則:

(1)同一個線程中的每個Action都happens-before於出現在其后的任何一個Action。

(2)對一個監視器的解鎖happens-before於每一個后續對同一個監視器的加鎖。

(3)對volatile字段的寫入操作happens-before於每一個后續的同一個字段的讀操作。

(4)Thread.start()的調用會happens-before於啟動線程里面的動作。

(5)Thread中的所有動作都happens-before於其他線程檢查到此線程結束或者Thread.join()中返回或者Thread.isAlive()==false。

(6)一個線程A調用另一個另一個線程B的interrupt()都happens-before於線程A發現B被A中斷(B拋出異常或者A檢測到B的isInterrupted()或者interrupted())。

(7)一個對象構造函數的結束happens-before與該對象的finalizer的開始

(8)如果A動作happens-before於B動作,而B動作happens-before與C動作,那么A動作happens-before於C動作。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM