CPU Cache 機制以及 Cache miss

本文轉載自查看原文 2019-04-15 15:41 10086 Linux/ 計算機基礎理解/ 計算機相關基礎/ cache miss/ CPU cache

CPU體系結構之cache小結

1.What is cache?

Cache是用來對內存數據的緩存。

CPU要訪問的數據在Cache中有緩存，稱為“命中” (Hit)，反之則稱為“缺失” (Miss)。

CPU訪問它的速度介於寄存器與內存之間（數量級的差別）。實現Cache的花費介於寄存器與內存之間。

現在 CPU 的 Cache 又被細分了幾層，常見的有 L1 Cache, L2 Cache, L3 Cache，其讀寫延遲依次增加，實現的成本依次降低。

現代系統采用從 Register ―> L1 Cache ―> L2 Cache ―> L3 Cache ―> Memory ―> Mass storage的層次結構，是為解決性能與價格矛盾所采用的折中設計。

下圖描述的就是CPU、Cache、內存、以及DMA之間的關系。程序的指令部分和數據部分一般分別存放在兩片不同的cache中，對應指令緩存（I-Cache）和數據緩存（D-Cache）。

引入 Cache 的理論基礎是程序局部性原理，包括時間局部性和空間局部性。即最近被CPU訪問的數據，短期內CPU 還要訪問（時間）；被 CPU 訪問的數據附近的數據，CPU 短期內還要訪問（空間）。因此如果將剛剛訪問過的數據緩存在Cache中，那下次訪問時，可以直接從Cache中取，其速度可以得到數量級的提高。

CPU緩存（Cache Memory）位於CPU與內存之間的臨時存儲器，它的容量比內存小但交換速度快。在緩存中的數據是內存中的一小部分，但這一小部分是短時間內CPU即將訪問的，當CPU調用大量數據時，就可避開內存直接從緩存中調用，從而加快讀取速度。

在CPU中加入緩存是一種高效的解決方案，這樣整個內存儲器（緩存+內存）就變成了既有緩存的高速度，又有內存的大容量的存儲系統了。緩存對CPU的性能影響很大，主要是因為CPU的數據交換順序和CPU與緩存間的帶寬引起的。

下圖是一個典型的存儲器層次結構，我們可以看到一共使用了三級緩存

2. Why should I care about cache?

從延遲上看，做一次乘法一般只要三個周期，而做一次CPU的內存訪問需要167個cycle，如果需要提升程序性能，減少CPU的memory訪問至關重要。因此，需要采用容量小但是更快的存儲器（cache）。

3.為什么要有多級CPU Cache

隨着科技發展，熱點數據的體積越來越大，單純的增加一級緩存大小的性價比已經很低了
二級緩存就是一級緩存的緩沖器：一級緩存制造成本很高因此它的容量有限，二級緩存的作用就是存儲那些CPU處理時需要用到、一級緩存又無法存儲的數據。
同樣道理，三級緩存和內存可以看作是二級緩存的緩沖器，它們的容量遞增，但單位制造成本卻遞減。
另外需要注意的是，L3 Cache和L1，L2 Cache有着本質的區別。，L1和L2 Cache都是每個CPU core獨立擁有一個，而L3 Cache是幾個Cores共享的，可以認為是一個更小但是更快的內存。

使用dmidecode命令查看cache size

4.cpu與cache 內存交互的過程

CPU接收到指令后，它會最先向CPU中的一級緩存（L1 Cache）去尋找相關的數據，然一級緩存是與CPU同頻運行的，但是由於容量較小，所以不可能每次都命中。這時CPU會繼續向下一級的二級緩存（L2 Cache）尋找，同樣的道理，當所需要的數據在二級緩存中也沒有的話，會繼續轉向L3 Cache、內存(主存)和硬盤.

程序運行時可以使用perf工具觀察cache-miss的rate.

5.什么是cache line

Cache Line可以簡單的理解為CPU Cache中的最小緩存單位。
內存和高速緩存之間或高速緩存之間的數據移動不是以單個字節或甚至word完成的。
相反，移動的最小數據單位稱為緩存行，有時稱為緩存塊
目前主流的CPU Cache的Cache Line大小都是64Bytes。假設我們有一個512字節的一級緩存，那么按照64B的緩存單位大小來算，這個一級緩存所能存放的緩存個數就是512/64 = 8個。
查看cache line大小
cat /sys/devices/system/cpu/cpu1/cache/index0/coherency_line_size
cache line的影響：

for (int i = 0; i < N; i+=k)
    arr[i] *= 3;

注意當步長在1到16范圍內，循環運行時間幾乎不變。但從16開始，每次步長加倍，運行時間減半。
由於16個整型數占用64字節（一個緩存行），for循環步長在1到16之間必定接觸到相同數目的緩存行：即數組中所有的緩存行。當步長為32，我們只有大約每兩個緩存行接觸一次，當步長為64，只有每四個接觸一次。

6. cache寫機制

Cache寫機制分為write through和write back兩種。

Write-through- Write is done synchronously both to the cache and to the backing store.
Write-back (or Write-behind) - Writing is done only to the cache. A modified cache block is written back to the store, just before it is replaced.

Write-through（直寫模式）在數據更新時，同時寫入緩存Cache和后端存儲。此模式的優點是操作簡單；缺點是因為數據修改需要同時寫入存儲，數據寫入速度較慢。

Write-back（回寫模式）在數據更新時只寫入緩存Cache。只在數據被替換出緩存時，被修改的緩存數據才會被寫到后端存儲。此模式的優點是數據寫入速度快，因為不需要寫存儲；缺點是一旦更新后的數據未被寫入存儲時出現系統掉電的情況，數據將無法找回。

7.cache 一致性

多個處理器對某個內存塊同時讀寫，會引起沖突的問題，這也被稱為Cache一致性問題。
Cache一致性問題出現的原因是在一個多處理器系統中，多個處理器核心都能夠獨立地執行計算機指令，從而有可能同時對某個內存塊進行讀寫操作，並且由於我們之前提到的回寫和直寫的Cache策略，導致一個內存塊同時可能有多個備份，有的已經寫回到內存中，有的在不同的處理器核心的一級、二級Cache中。由於Cache緩存的原因，我們不知道數據寫入的時序性，因而也不知道哪個備份是最新的。還有另外一個一種可能，假設有兩個線程A和B共享一個變量，當線程A處理完一個數據之后，通過這個變量通知線程B，然后線程B對這個數據接着進行處理，如果兩個線程運行在不同的處理器核心上，那么運行線程B的處理器就會不停地檢查這個變量，而這個變量存儲在本地的Cache中，因此就會發現這個值總也不會發生變化。

為了正確性，一旦一個核心更新了內存中的內容，硬件就必須要保證其他的核心能夠讀到更新后的數據。目前大多數硬件采用的策略或協議是MESI或基於MESI的變種：
M代表更改（modified），表示緩存中的數據已經更改，在未來的某個時刻將會寫入內存；
E代表排除（exclusive），表示緩存的數據只被當前的核心所緩存；
S代表共享（shared），表示緩存的數據還被其他核心緩存；
I代表無效（invalid），表示緩存中的數據已經失效，即其他核心更改了數據。
8.cache的局部性

程序在一段時間內訪問的數據通常具有局部性，比如對一維數組來說，訪問了地址x上的元素，那么以后訪問地址x+1、x+2上元素的可能性就比較高；現在訪問的數據，在不久之后再次被訪問的可能性也比較高。局部性分為“時間局部性”和“空間局部性”，時間局部性是指當前被訪問的數據隨后有可能訪問到；空間局部性是指當前訪問地址附近的地址可能隨后被訪問。處理器通過在內存和核心之間增加緩存以利用局部性增強程序性能，這樣可以用遠低於緩存的價格換取接近緩存的速度。

時間局部性：
代碼1：

for (loop=0; loop<10; loop++) {
    for (i=0; i<N; i++) {
        ... = ... x[i] ...
    }
}

代碼2：

for (i=0; i<N; i++) {
    for (loop=0; loop<10; loop++) {
        ... = ... x[i] ...
    }
}

代碼二的性能優於代碼1，x的元素現在被重復使用，因此更有可能留在緩存中。這個
重新排列的代碼在使用x[i]時顯示更好的時間局部性。

空間局部性：
一個矩陣乘法的例子：
代碼1：

for i=1..n
    for j=1..n
        for k=1..n
            c[i,j] += a[i,k]*b[k,j]

代碼2：

for i=1..n
    for k=1..n
        for j=1..n
            c[i,j] += a[i,k]*b[k,j]

代碼2的性能優於代碼一的性能。
兩者實現上的差異：

代碼2的b[k,j]是按行訪問的，所以存在良好的空間局部性，cache line被充分利用。
代碼1中，b [k，j]由列訪問。由於行的存儲矩陣，因此對於每個緩存行加載，只有一個元素用於遍歷。

9.cache替換策略

Cache工作原理要求它盡量保存最新數據，當從主存向Cache傳送一個新塊，而Cache中可用位置已被占滿時，就會產生Cache替換的問題。
常用的替換算法有下面三種。
（1） LFU
LFU（Least Frequently Used，最不經常使用）算法將一段時間內被訪問次數最少的那個塊替換出去。每塊設置一個計數器，從0開始計數，每訪問一次，被訪塊的計數器就增1。當需要替換時，將計數值最小的塊換出，同時將所有塊的計數器都清零。
這種算法將計數周期限定在對這些特定塊兩次替換之間的間隔時間內，不能嚴格反映近期訪問情況，新調入的塊很容易被替換出去。
（2）LRU
LRU（Least Recently Used，近期最少使用）算法是把CPU近期最少使用的塊替換出去。這種替換方法需要隨時記錄Cache中各塊的使用情況，以便確定哪個塊是近期最少使用的塊。每塊也設置一個計數器，Cache每命中一次，命中塊計數器清零，其他各塊計數器增1。當需要替換時，將計數值最大的塊換出。
LRU算法相對合理，但實現起來比較復雜，系統開銷較大。這種算法保護了剛調入Cache的新數據塊，具有較高的命中率。LRU算法不能肯定調出去的塊近期不會再被使用，所以這種替換算法不能算作最合理、最優秀的算法。但是研究表明，采用這種算法可使Cache的命中率達到90%左右。
（3）隨機替換
最簡單的替換算法是隨機替換。隨機替換算法完全不管Cache的情況，簡單地根據一個隨機數選擇一塊替換出去。隨機替換算法在硬件上容易實現，且速度也比前兩種算法快。缺點則是降低了命中率和Cache工作效率。

10.cache的映射
主存與cache的地址映射方式有全相聯方式、直接方式和組相聯方式三種。
直接映射
將一個主存塊存儲到唯一的一個Cache行。

1) 多對一的映射關系，但一個主存塊只能拷貝到cache的一個特定行位置上去。
cache的行號i和主存的塊號j有如下函數關系：i=j mod m（m為cache中的總行數）

優點：硬件簡單，容易實現
缺點：命中率低， Cache的存儲空間利用率低

2) 全相聯映射
可以將一個主存塊存儲到任意一個Cache行。
主存的一個塊直接拷貝到cache中的任意一行上

優點：命中率較高，Cache的存儲空間利用率高
缺點：線路復雜，成本高，速度低

組相聯映射
可以將一個主存塊存儲到唯一的一個Cache組中任意一個行。
將cache分成u組，每組v行，主存塊存放到哪個組是固定的，至於存到該組哪一行是靈活的，即有如下函數關系：cache總行數m＝u×v 組號q＝j mod u

組間采用直接映射，組內為全相聯
硬件較簡單，速度較快，命中率較高

Cache Miss

1.不要期望編譯器對你做任何優化

2.Cache(廣義內存)系統代表性的包括三種級別：
（1）第一級cache (L1)位於CPU芯片上並且運算於CPU工作頻率；
（2）第二級cache(L2)也位於芯片上比L1速度慢而體積大；
（3）第三級cache(L3)位於CPU外部，是速度最慢、體積最大的存儲器。

3.當運算器需要從存儲器中提取數據時，它首先在最高級的cache中尋找然后在次高級的cache中尋找。如果在cache中找到，則稱為命中hit；反之，則稱為不命中miss。

4.cache misses的種類：

（1）cold misses：不可避免。若K級cache空，則必發生cache miss，空的cache稱為cold cache，這種cache misses稱為compulsory misses或者cold misses。當cache已被warmed up則一般不會再發生cold misses。

（2）conflict misses：多個K+1級的blocks被映射到K級中同一個block。這一點關系到對於程序員而言能否寫出cache友好代碼。

（3）程序常會分階段執行（例如循環：內層、外層），每個階段會取cache blocks的固定幾個塊，這幾個塊所構成的集合稱為working set。當working set超過cache大小時所發生的miss稱為capacity misses。

5.從cache指令上做優化：簡化調用關系，減少冗余代碼（即不是必須存在的的代碼），減小代碼量，減少不必要的調用；

6.從數據cache上做優化：即減少cache miss的次數，方法有不少，http://blog.chinaunix.net/uid-7319742-id-2059720.html 這篇文章有介紹

推薦鏈接：

http://bi.dataguru.cn/thread-163962-1-1.html

http://blog.chinaunix.net/uid-7319742-id-2059720.html

http://blog.csdn.net/wangjiaoyu250/article/details/9212863

http://coolshell.cn/articles/10249.html

https://blog.csdn.net/yhb1047818384/article/details/79604976

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Cache Miss CACHE的Miss和Hit 用linux perf命令來分析程序的cpu cache miss現象在CPU Hit/MIss時，Cache和Main Memory之間交互策略 cpu cache CPU Cache與緩存行 Volley Cache機制分析 Openfire 的 Cache機制 docker build 的 cache 機制 Cache寫機制