從內存到 CPU Cache 之間的數據讀寫的時間消耗是線程切換性能消耗的主要原因之一是不正確的

本文轉載自查看原文 2020-12-17 23:50 454

有觀點認為，從內存到 CPU Cache 之間的數據讀寫的時間消耗是線程切換性能消耗的主要原因之一。這是不正確的。

這是一個誤區。

換句話說，從內存到 CPU Cache 之間的數據讀寫的時間消耗不是線程切換性能消耗的主要原因。

若要 “從內存到 CPU Cache 之間的數據讀寫的時間消耗是線程切換性能消耗的主要原因之一” 這一觀點成立，需要滿足以下 2 點：

1 線程切換時將線程的整個棧載入 CPU Cache

2 線程執行的代碼用到的數據全部都在棧里

要弄清楚這個問題，需要考慮一點， CPU 對於 Cache 的管理，是不是和操作系統虛擬內存一樣的 “頁式管理” ？

函數的調用層級越多，棧里存的上下文數據就越多，上下文數據是函數每次調用的參數和局部變量。

棧的數據多，是不是也會增加 CPU Cache 和內存之間載入載出數據的次數？

假設一個任務進行了 1000 層函數調用，可以考慮分解為 10 個任務，平均每個任務進行 100 層函數調用，這樣棧數據也會減少到只有 1/10 。

因為在 1000 層調用中，實際上大部分局部變量和參數並不是從頭到尾都用到，也不需要因為參數傳遞等原因在棧里重復保存。

分解為 10 個任務后，每個任務返回下一個任務需要用到的數據，這只是少數的幾個值。

這樣就減少了棧數據，也就是減少了棧對內存空間的使用。這樣，是不是就可以減少 CPU Cache 和內存之間載入載出數據的次數？

這個問題，已經不是線程切換的問題，即使只有一個線程或少數幾個線程，這個問題一樣的存在。

將多層函數調用分解為函數調用層級較少的多個任務，這種模式或架構稱為 “任務機” 。

異步回調框架只是剛好自然的在一定程度上將程序架構變成了任務機。異步回調框架比如 libuv 、netty ，異步回調思想和框架在 java 社區和 Linux 服務器端很流行。

node.js 也是異步回調框架的代表， node.js 也使用 libuv 。

以高並發著名的 Erlang 似乎就是任務機。

Erlang ，可以說是一個操作系統，也可以說是一個平台，也可以說是一個框架。

由此，大家可以看看， C# 的 async await 解決的是語法糖問題，還是性能問題，還是什么問題？

這些問題分析清楚了，可以在程序的層面由程序員解決，不用搞 “抽象層” 、語法糖、 “黑魔法” 。 “黑魔法” 出自 “編譯器黑魔法” 。

假設 CPU Cache，比如三級 Cache ，和內存之間的數據映射和載入載出是 “頁式管理”，

假設現在有一個線程，運行完后銷毀，然后再創建一個新的線程，同樣也是運行完后銷毀，再創建一個新的線程，重復這個過程。

假設這個過程中創建和銷毀了 1000 個線程，但考慮到棧空間可能會重復利用，也就是說，操作系統分配給新線程的棧空間是剛銷毀的線程的棧空間，

這樣的話，這 1000 個線程使用的是同一段棧空間，則在創建、運行、銷毀這 1000 個線程的過程中，這段棧空間可以常駐 CPU Cache，不用重復的和內存映射地址和載入載出數據。

也就是說，只需要在創建第一個線程時將棧空間從內存映射到 CPU Cache（比如三級 Cache），和從內存載入數據。

之后，棧空間就常駐 CPU Cache，在創建、運行、銷毀這 1000 個線程的過程中， CPU 直接讀寫 Cache，而 Cache 不需要向內存載入載出數據。

當然，線程啟動時棧數據通常並不多，就是入口函數的幾個參數，但是， CPU （存儲管理部件）並不知道棧空間里哪些數據有用，哪些沒用，會把整個頁的數據從內存加載到 Cache 。

這里說整個頁，而不是整個棧，因為，如果棧的空間比較大，由多個頁組成，那么，不一定一次就將棧的全部頁從內存載入 Cache，這和操作系統虛擬內存的管理方法可能是類似的。

當 Cache 空間不夠時，棧的不常用的一些頁可能會被載出，將空間騰出來給其它的數據用。

同理，假設有 100 個線程，每個線程運行完成后，就銷毀，並創建新的線程，運行，完成后銷毀，再創建新的線程，重復這個過程。

這樣，線程的數量保持在 100 個，假設創建和銷毀了 1 萬個線程，這個過程中，線程數量保持在 100 個，考慮到操作系統會重復利用棧空間，就是會把銷毀的線程的棧空間分配給新的線程用，這樣，假設這 100 個線程的棧一開始就在 Cache 里，比如三級 Cache，那么，在創建、運行、銷毀了 1 萬個線程的過程中，這 1 萬個線程的棧空間始終都在 Cache 里，不會和內存載入載出數據。

當 Cache 不夠時，會將一些不常用的頁載出到內存，將空間騰出來給其它的數據用。此時，一些比較長時間未運行的線程的棧的頁可能會被載出，最近運行的一些線程的棧中比較長時間未用到的數據的頁也可能被載出。

Cache 除了存棧數據，還會存堆數據和操作系統數據，等等。

但事實上，棧空間可能不是操作系統來分配，而是應用程序自己分配，如果是在運行時創建線程，可能是從堆里分配，這樣，新創建的線程的棧空間是否使用剛銷毀的線程的棧空間，這取決於應用程序對堆的使用情況和管理方式。也許，新創建的線程的棧空間使用剛銷毀的線程的棧空間是一個理想狀況。

比較理想的狀況是，只有少數幾個線程，這幾個線程的棧都在 Cache 里，這幾個線程執行的都是小任務。小任務指函數調用層級較少的任務。

小任務之間通常通過堆共享（傳遞）數據，從這個角度來看，堆的申請分配算法可能在最近用到的空間附近分配比較好，這樣可以比較大概率避免在 Cache 在內存間載入載出數據。

比如一個小任務返回了一個 DataTable，放在堆里，下一個小任務要用到這個 DataTable，同時也要申請一些堆空間，如果在這個 DataTable 的鄰近位置申請空間，則新申請的空間和 DataTable 的空間是鄰近的，可能在一個頁里，而這個頁在存 DataTable 時就應該在 Cache 里，這樣下一個小任務申請空間就可以直接使用 Cache 里的這個頁，不用映射一塊新的內存空間（頁），也不用從內存載入數據到 Cache 。

即使上一個小任務的數據大於一個頁，或者下一個小任務的數據大於一個頁，或者上一個小任務和下一個小任務的數據加起來大於一個頁，但，只要在最近用到的空間附近分配新申請的內存塊，應該能營造出常用的頁比較大概率總是在 Cache 的效果。這樣可以避免在 Cache 和內存間頻繁載入載出數據。

但問題是，怎樣是 “最近用到的空間”，我覺得簡單的辦法就是剛剛分配或者回收的空間附近。

但應該指出，以上只是從一個角度來考慮堆分配的策略，不是全面的考慮。

由上，可以看到，協程也存在同樣的問題，協程並不能減小任務的棧數據，協程的作用應該主要是避免了線程切換和調度時切換到操作系統進程的開銷。

協程切換，只是在線程里簡單的執行幾句代碼，和執行幾句普通代碼一樣。

線程切換，需要中斷發起，調用操作系統原語，切換到操作系統進程，操作系統還要做一些調度邏輯，總之看起來是比較繁瑣 “重型” 的一個過程。

“重型” ，是 “輕量” 的反義詞。

和線程切換相比，協程切換就很輕量。

如果協程很多，這些協程的棧空間加起來遠遠大於 CPU Cache，比如三級 Cache，那么，當協程切換時，大概率的，切換到的協程的棧空間不在 Cache 里，要從內存映射到 Cache，並載入數據。

所以，協程也不能搞太多。

我以前寫過一篇文章《再見異步回調，再見 Async Await， 10 萬個協程的時代來了》 https://www.cnblogs.com/KSongKing/p/10802278.html ，

但現在看來，協程也不能玩 10 萬個。

“線程切換的性能消耗” 的問題的本質是 CPU Cache 和內存間的時間延遲和保存了很多個執行單位的上下文數據之間的矛盾制約。

廣義的， CPU Cache 和內存間的時間延遲是分級存儲的時間延遲，也可以說是分級存儲的瓶頸，

所以，也可以說， “線程切換的性能消耗” 的問題的本質是分級存儲的時間延遲和保存了很多個執行單位的上下文數據之間的矛盾制約。

或者， “線程切換的性能消耗” 的問題的本質是分級存儲的瓶頸和保存了很多個執行單位的上下文數據之間的矛盾制約。

在計算機系統結構中，分級存儲普遍存在，比如硬盤和內存組成的虛擬內存，內存和 CPU 三級 Cache， CPU 一級 Cache 二級 Cache 三級 Cache 。

對於分級存儲和多線程高並發的瓶頸制約，其實，線程池 + IO 異步是簡單直接的解決方法。

C# async await 看起來也是把源代碼切割成了一個個任務，也算是任務機，但實際的性能如何？

而《雲原生時代，Java還能走多遠？》 https://mp.weixin.qq.com/s?__biz=MzIzNjUxMzk2NQ==&mid=2247503699&idx=1&sn=3280cd6dbcb8b098b237387b236a16d4&chksm=e8d43091dfa3b987e82e21bda120e0b836199a54e8977bd3fd041e85e745d2a3c6f72fe484e4&mpshare=1&scene=23&srcid=12178I7ZbPMDZPC800erHFzw&sharer_sharetime=1608212243039&sharer_shareid=3ccc4c584e52d03ca8b47b71b3001007#rd

這篇文章里講到：

“

一次內存訪問（將主內存數據調入處理器 Cache）大約需要耗費數百個時鍾周期，而大部分簡單指令的執行只需要一個時鍾周期而已。因此，在程序執行性能這個問題上，如果編譯器能減少一次內存訪問，可能比優化掉幾十、幾百條其他指令都來得更有效果。

……

通過分析，得知一個對象不會傳遞到方法之外，那就不需要真實地在對中創建完整的對象布局，完全可以繞過對象標識符，將它拆散為基本的原生數據類型來創建，甚至是直接在棧內存中分配空間（HotSpot 並沒有這樣做），方法執行完畢后隨着棧幀一起銷毀掉。

”

這個優化也是因為馮諾依曼瓶頸，也就是內存到 CPU 之間的時間延遲，也就是 CPU 和內存之間的速度差，也就是從內存到 CPU Cache 之間的數據讀寫的時間消耗。

但是，這個優化也是沒有意義的，道理同上。

編譯器沒有必要去干這些無聊的事。無聊的事指各種各樣奇形怪狀的優化。

現代編譯器的優化技術深奧復雜，儼然各家各派的秘技，哈哈哈哈。

一個架構，一個設計，簡單明了，效率自然就高，且安全健壯。

優化，通常針對一些特定的情況，越特殊的情況，優化步驟大概越繁瑣復雜。

優化，會不會篡改和擅自揣測源代碼的意圖，增加系統的不透明性，對安全和健壯性造成隱患？

優化會產生一些代碼副本，導致代碼膨脹。對每一種特定情況的優化會產生一段特定的代碼，對應一個特定的代碼副本，也就是說，一份源代碼，經過優化，得到若干份目標代碼副本，這就是代碼膨脹。

當然，這里的副本，並不一定對應全部源代碼，而是對應被優化的那一段代碼，被優化的一段代碼會產生若干副本，用在適合的場合。

比如，這個場合用這個副本更高效，就使用這個副本，另一個場合使用另一個副本更高效，就使用另一個副本。

副本導致代碼膨脹，也就是目標代碼的代碼量增加，這意味着代碼占用的存儲空間增加，這是不是也會增加 CPU Cache 和內存之間載入載出數據的次數？

代碼膨脹，和泛型相似，和泛型類比一下就很清楚。泛型為每一種具體類型生成一份代碼，造成了代碼膨脹，泛型是代碼膨脹的經典代表。

什么 “尾遞歸優化”，如果覺得棧的大小不夠，怕堆棧溢出，可以在堆（Heap）里創建一個棧（new Stack()），把遞歸的參數存在這個 Stack 對象里，自己遞歸。

如果希望把遞歸寫成循環，且能寫成循環，自己寫不是更香嗎？

說起優化，會想起簡單類型和結構體的賦值和參數傳遞，這又想起內存的數據復制， CPU 的一級 Cache 二級 Cache 三級 Cache 之間，三級 Cache 和內存之間，內存和內存之間，存不存在 “批量復制” 數據？

批量復制，如果存在，應存在於匯編和硬件層面。

我記得在什么地方看到過， C 語言里有一個宏還是關鍵字是內存的批量復制。這個宏或關鍵字好像還是 Windows 操作系統特有的。

按理，批量復制應該存在，內存和外設之間，是有批量復制的，可以連續傳輸一個數據塊，完成后，再通知 CPU 。這是內存和外設的控制電路實現的功能。

所以，按理， CPU 的一級 Cache 二級 Cache 三級 Cache 之間，三級 Cache 和內存之間，內存和內存之間，存在 “批量復制” 數據。

事實上，上面提到 CPU Cache 和內存之間的數據載入載出是否是 “頁式管理”，這樣的話， CPU Cache 和內存之間的數據載入載出，包括批量復制，這部分是 CPU 硬件設計比較復雜和重要的一塊。

《雲原生時代，Java還能走多遠？》這篇文章還提到：

“

Java 語言抽象出來隱藏了各種操作系統線程差異性的統一線程接口，這曾經是它區別於其他編程語言（C/C++ 表示有被冒犯到）的一大優勢，不過，統一的線程模型不見得永遠都是正確的。

Java 目前主流的線程模型是直接映射到操作系統內核上的 1:1 模型，這對於計算密集型任務這很合適，既不用自己去做調度，也利於一條線程跑滿整個處理器核心。但對於 I/O 密集型任務，譬如訪問磁盤、訪問數據庫占主要時間的任務，這種模型就顯得成本高昂，主要在於內存消耗和上下文切換上：64 位 Linux 上 HotSpot 的線程棧容量默認是 1MB，線程的內核元數據（Kernel Metadata）還要額外消耗 2-16KB 內存，所以單個虛擬機的最大線程數量一般只會設置到 200 至 400 條，當程序員把數以百萬計的請求往線程池里面灌時，系統即便能處理得過來，其中的切換損耗也相當可觀。

”

這個線程昂貴的問題，不是由 “異步回調流” 解決了嗎？怎么還會影響到 “雲原生時代的 java” ？和 “雲原生” 有什么關系呢？

“異步回調流” 是 “異步回調流派” 的簡稱。

還可以看看這篇文章《現代存儲性能“過剩”，API成最大瓶頸》 https://mp.weixin.qq.com/s?__biz=MzIzNjUxMzk2NQ==&mid=2247503386&idx=2&sn=f8b78a53f1a44c2640037eb9bd5aa0d6&chksm=e8d431d8dfa3b8ce646c80aa0e0aefb9a1f346cd21891ded96053f969ebbf5476b2b239776f1&mpshare=1&scene=23&srcid=12175huoFGNEG27KJvOhXpmy&sharer_sharetime=1608212465010&sharer_shareid=3ccc4c584e52d03ca8b47b71b3001007#rd

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 cpu性能消耗分析性能問題之CPU消耗高如何查看CPU消耗最高的線程 cpu 時間片消耗表|cpu消耗表 java性能時間與空間消耗性能測試分析過程（三）linux下查看最消耗CPU/內存的進程 vue解決dhtmlx-gantt在element的tab切換時顯示不正確問題解決linux buffer/cache 消耗內存過高引發的問題 cpu消耗高及響應時間長及數據庫性能和數據庫連接池的問題 Jenkins系統上的時間不正確問題

從 內存 到 CPU Cache 之間 的 數據讀寫 的 時間消耗 是 線程切換 性能消耗 的 主要原因 之一 是 不正確 的

免責聲明！

從內存到 CPU Cache 之間的數據讀寫的時間消耗是線程切換性能消耗的主要原因之一是不正確的