CPU中的cache結構以及cache一致性

本文轉載自查看原文 2018-03-15 17:26 15946 架構相關

一. 引子

　　在多線程環境中，經常會有一些計數操作，用來統計線上服務的一些qps、平均延時、error等。為了完成這些統計，可以實現一個多線程環境下的計數器類庫，方便記錄和查看用戶程序中的各類數值。在實現這個計數器類庫時，可以利用thread local存儲來避免cache bouncing，從而提高效率。注意，這種實現方式的本質是把寫時的競爭轉移到了讀：讀得合並所有寫過的線程中的數據，而不可避免地變慢了。當你讀寫都很頻繁並得基於數值做一些邏輯判斷時，你不應該用前述的實現方式。那么，cache bouncing是什么？下面詳細說明一下。

二. 什么是cache bouncing？

　　為了以較低的成本大幅提高性能，現代CPU都有cache。cpu cache已經發展到了三級緩存結構，基本上現在買的個人電腦都是L3結構。其中L1和L2cache為每個核獨有，L3則所有核共享。為了保證所有的核看到正確的內存數據，一個核在寫入自己的L1 cache后，CPU會執行Cache一致性算法把對應的cacheline(一般是64字節)同步到其他核。這個過程並不很快，是微秒級的，相比之下寫入L1 cache只需要若干納秒。當很多線程在頻繁修改某個字段時，這個字段所在的cacheline被不停地同步到不同的核上，就像在核間彈來彈去，這個現象就叫做cache bouncing。由於實現cache一致性往往有硬件鎖，cache bouncing是一種隱式的的全局競爭。

　　cache bouncing使訪問頻繁修改的變量的開銷陡增，甚至還會使訪問同一個cacheline中不常修改的變量也變慢，這個現象是false sharing。按cacheline對齊能避免false sharing，但在某些情況下，我們甚至還能避免修改“必須”修改的變量。當很多線程都在累加一個計數器時，我們讓每個線程累加私有的變量而不參與全局競爭，在讀取時我們累加所有線程的私有變量。雖然讀比之前慢多了，但由於這類計數器的讀多為低頻展現，慢點無所謂。而寫就快多了，從微秒到納秒，幾百倍的差距。

三. cache

1. cache的意義

　　為什么需要CPU cache？因為CPU的頻率太快了，快到主存跟不上，這樣在處理器時鍾周期內，CPU常常需要等待主存，浪費資源。所以cache的出現，是為了緩解CPU和內存之間速度的不匹配問題（結構：cpu -> cache -> memory）。

　　CPU cache有什么意義？cache的容量遠遠小於主存，因此出現cache miss在所難免，既然cache不能包含CPU所需要的所有數據，那么cache的存在真的有意義嗎？當然是有意義的——局部性原理。

A. 時間局部性：如果某個數據被訪問，那么在不久的將來它很可能被再次訪問；

B. 空間局部性：如果某個數據被訪問，那么與它相鄰的數據很快也可能被訪問；

2. cache和寄存器

　　存儲器的三個性能指標——速度、容量和每位價格——導致了計算機組成中存儲器的多級層次結構，其中主要是緩存和主存、主存和磁盤的結構。那么在主存之上，cache和寄存器之間的關系是？

　　舉個例子，當你在思考一個問題的時候，寄存器存放的是你當前正在思考的內容，cache存放的是與該問題相關的記憶，主存則存放無論與該問題是否有關的所有記憶，所以，寄存器存放的是當前CPU執行的數據，而cache則緩存與該數據相關的部分數據，因此只要保證了cache的一致性，那么寄存器拿到的數據也必然具備一致性。

四. CPU cache結構

1. 單核CPU cache結構

　　在單核CPU結構中，為了緩解CPU指令流水中cycle沖突，L1分成了指令（L1P）和數據（L1D）兩部分，而L2則是指令和數據共存。

2. 多核CPU cache結構

　　多核CPU的結構與單核相似，但是多了所有CPU共享的L3三級緩存。在多核CPU的結構中，L1和L2是CPU私有的，L3則是所有CPU核心共享的。

五. MESI（緩存一致性）

　　緩存一致性：用於保證多個CPU cache之間緩存共享數據的一致。

　　至於MESI，則是緩存一致性協議中的一個，到底怎么實現，還是得看具體的處理器指令集。

1. cache的寫方式

　　cache的寫操作方式可以追溯到大學教程《計算機組成原理》一書。

　　A. write through（寫通）：每次CPU修改了cache中的內容，立即更新到內存，也就意味着每次CPU寫共享數據，都會導致總線事務，因此這種方式常常會引起總線事務的競爭，高一致性，但是效率非常低；

　　B. write back（寫回）：每次CPU修改了cache中的數據，不會立即更新到內存，而是等到cache line在某一個必須或合適的時機才會更新到內存中；

　　無論是寫通還是寫回，在多線程環境下都需要處理緩存cache一致性問題。為了保證緩存一致性，處理器又提供了寫失效（write invalidate）和寫更新（write update）兩個操作來保證cache一致性。

　　寫失效：當一個CPU修改了數據，如果其他CPU有該數據，則通知其為無效；

　　寫更新：當一個CPU修改了數據，如果其他CPU有該數據，則通知其跟新數據；

　　寫更新會導致大量的更新操作，因此在MESI協議中，采取的是寫失效（即MESI中的I：ivalid，如果采用的是寫更新，那么就不是MESI協議了，而是MESU協議）。

2. cache line

　　cache line是cache與內存數據交換的最小單位，根據操作系統一般是32byte或64byte。在MESI協議中，狀態可以是M、E、S、I，地址則是cache line中映射的內存地址，數據則是從內存中讀取的數據。

　　工作方式：當CPU從cache中讀取數據的時候，會比較地址是否相同，如果相同則檢查cache line的狀態，再決定該數據是否有效，無效則從主存中獲取數據，發起一次RR（remote read）；

　　工作效率：當CPU能夠從cache中拿到有效數據的時候，消耗幾個CPU cycle，如果發生cache miss，則會消耗幾十上百個CPU cycle；

　　cache的工作原理以及在主板上的結構如下兩圖所示：

3. 狀態介紹

　　MESI協議將cache line的狀態分成modify、exclusive、shared、invalid，分別是修改、獨占、共享和失效。

　　modify：當前CPU cache擁有最新數據（最新的cache line），其他CPU擁有失效數據（cache line的狀態是invalid），雖然當前CPU中的數據和主存是不一致的，但是以當前CPU的數據為准；

　　exclusive：只有當前CPU中有數據，其他CPU中沒有改數據，當前CPU的數據和主存中的數據是一致的；

　　shared：當前CPU和其他CPU中都有共同數據，並且和主存中的數據一致；

　　invalid：當前CPU中的數據失效，數據應該從主存中獲取，其他CPU中可能有數據也可能無數據，當前CPU中的數據和主存被認為是不一致的；

　　對於invalid而言，在MESI協議中采取的是寫失效（write invalidate）。

4. cache操作

　　MESI協議中，每個cache的控制器不僅知道自己的操作（local read和local write），通過監聽也知道其他CPU中cache的操作（remote read和remote write）。對於自己本地緩存有的數據，CPU僅需要發起local操作，否則發起remote操作，從主存中讀取數據，cache控制器通過總線監聽，僅能夠知道其他CPU發起的remote操作，但是如果local操作會導致數據不一致性，cache控制器會通知其他CPU的cache控制器修改狀態。

　　local read（LR）：讀本地cache中的數據；

　　local write（LW）：將數據寫到本地cache；

　　remote read（RR）：讀取內存中的數據；

　　remote write（RW）：將數據寫通到主存；

5. 狀態轉換和cache操作

　　如上文內容所述，MESI協議中cache line數據狀態有4種，引起數據狀態轉換的CPU cache操作也有4種，因此要理解MESI協議，就要將這16種狀態轉換的情況討論清楚。

　　初始場景：在最初的時候，所有CPU中都沒有數據，某一個CPU發生讀操作，此時發生RR，數據從主存中讀取到當前CPU的cache，狀態為E（獨占，只有當前CPU有數據，且和主存一致），此時如果有其他CPU也讀取數據，則狀態修改為S（共享，多個CPU之間擁有相同數據，並且和主存保持一致），如果其中某一個CPU發生數據修改，那么該CPU中數據狀態修改為M（擁有最新數據，和主存不一致，但是以當前CPU中的為准），並通知其他擁有該數據的CPU數據失效，其他CPU中的cache line狀態修改為I（失效，和主存中的數據被認為不一致，數據不可用應該重新獲取）。

5.1 modify

　　場景：當前CPU中數據的狀態是modify，表示當前CPU中擁有最新數據，雖然主存中的數據和當前CPU中的數據不一致，但是以當前CPU中的數據為准；

　　LR：此時如果發生local read，即當前CPU讀數據，直接從cache中獲取數據，擁有最新數據，因此狀態不變；

　　LW：直接修改本地cache數據，修改后也是當前CPU擁有最新數據，因此狀態不變；

　　RR：因為本地內存中有最新數據，因此當前CPU不會發生RR和RW，當本地cache控制器監聽到總線上有RR發生的時，必然是其他CPU發生了讀主存的操作，此時為了保證一致性，當前CPU應該將數據寫回主存，而隨后的RR將會使得其他CPU和當前CPU擁有共同的數據，因此狀態修改為S；

　　RW：同RR，當cache控制器監聽到總線發生RW，當前CPU會將數據寫回主存，因為隨后的RW將會導致主存的數據修改，因此狀態修改成I；

5.2 exclusive

　　場景：當前CPU中的數據狀態是exclusive，表示當前CPU獨占數據（其他CPU沒有數據），並且和主存的數據一致；

　　LR：從本地cache中直接獲取數據，狀態不變；

　　LW：修改本地cache中的數據，狀態修改成M（因為其他CPU中並沒有該數據，因此不存在共享問題，不需要通知其他CPU修改cache line的狀態為I）；

　　RR：因為本地cache中有最新數據，因此當前CPU cache操作不會發生RR和RW，當cache控制器監聽到總線上發生RR的時候，必然是其他CPU發生了讀取主存的操作，而RR操作不會導致數據修改，因此兩個CPU中的數據和主存中的數據一致，此時cache line狀態修改為S；

　　RW：同RR，當cache控制器監聽到總線發生RW，發生其他CPU將最新數據寫回到主存，此時為了保證緩存一致性，當前CPU的數據狀態修改為I；

5.3 shared

　　場景：當前CPU中的數據狀態是shared，表示當前CPU和其他CPU共享數據，且數據在多個CPU之間一致、多個CPU之間的數據和主存一致；

　　LR：直接從cache中讀取數據，狀態不變；

　　LW：發生本地寫，並不會將數據立即寫回主存，而是在稍后的一個時間再寫回主存，因此為了保證緩存一致性，當前CPU的cache line狀態修改為M，並通知其他擁有該數據的CPU該數據失效，其他CPU將cache line狀態修改為I；

　　RR：狀態不變，因為多個CPU中的數據和主存一致；

　　RW：當監聽到總線發生了RW，意味着其他CPU發生了寫主存操作，此時本地cache中的數據既不是最新數據，和主存也不再一致，因此當前CPU的cache line狀態修改為I；

5.4 invalid

　　場景：當前CPU中的數據狀態是invalid，表示當前CPU中是臟數據，不可用，其他CPU可能有數據、也可能沒有數據；

　　LR：因為當前CPU的cache line數據不可用，因此會發生RR操作，此時的情形如下。

　　A. 如果其他CPU中無數據則狀態修改為E；

　　B. 如果其他CPU中有數據且狀態為S或E則狀態修改為S；

　　C. 如果其他CPU中有數據且狀態為M，那么其他CPU首先發生RW將M狀態的數據寫回主存並修改狀態為S，隨后當前CPU讀取主存數據，也將狀態修改為S；

　　LW：因為當前CPU的cache line數據無效，因此發生LW會直接操作本地cache，此時的情形如下。

　　A. 如果其他CPU中無數據，則將本地cache line的狀態修改為M；

　　B. 如果其他CPU中有數據且狀態為S或E，則修改本地cache，通知其他CPU將數據修改為I，當前CPU中的cache line狀態修改為M；

　　C. 如果其他CPU中有數據且狀態為M，則其他CPU首先將數據寫回主存，並將狀態修改為I，當前CPU中的cache line轉台修改為M；

　　RR：監聽到總線發生RR操作，表示有其他CPU讀取內存，和本地cache無關，狀態不變；

　　RW：監聽到總線發生RW操作，表示有其他CPU寫主存，和本地cache無關，狀態不變；

5.5 總結

　　MESI協議為了保證多個CPU cache中共享數據的一致性，定義了cache line的四種狀態，而CPU對cache的4種操作可能會產生不一致狀態，因此cache控制器監聽到本地操作和遠程操作的時候，需要對地址一致的cache line狀態做出一定的修改，從而保證數據在多個cache之間流轉的一致性。

參考資料：

http://blog.csdn.net/reliveit/article/details/50450136

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 CPU中的cache結構以及cache一致性（轉） Cache一致性 Cache一致性 DMA與cache一致性的問題 Cache一致性與DMA ARM Linux 內核 panic 之cache 一致性 ——cci-400 cache一致互聯 Cache一致性協議與偽共享問題從多核CPU Cache一致性的應用到分布式系統一致性的概念遷移 Cache的一致性問題 DMA和cache一致性問題