內存映射
Linux 內核給每個進程都提供了一個獨立的虛擬地址空間,並且這個地址空間是連續的。這樣,進程就可以很方便地訪問內存,更確切地說是訪問虛擬內存。
虛擬地址空間的內部又被分為內核空間和用戶空間兩部分,不同字長(也就是單個 CPU 指令可以處理數據的最大長度)的處理器,地址空間的范圍也不同。比如最常見的 32 位和 64 位系統,如圖:

並不是所有的虛擬內存都會分配物理內存,只有那些實際使用的虛擬內存才分配物理內存,並且分配后的物理內存,是通過內存映射來管理的。
內存映射,其實就是將虛擬內存地址映射到物理內存地址。為了完成內存映射,內核為每個進程都維護了一張頁表(頁表實際上存儲在 CPU 的內存管理單元 MMU 中),記錄虛擬地址與物理地址的映射關系。
當進程訪問的虛擬地址在頁表中查不到時,系統會產生一個缺頁異常,進入內核空間分配物理內存、更新進程頁表,最后再返回用戶空間,恢復進程的運行。(內存調用,都只在首次訪問時才分配,也就是通過缺頁異常進入內核中,再由內核來分配內存。)
多級頁表和大頁
MMU 規定了一個內存映射的最小單位,也就是頁,通常是 4 KB 大小。這樣,每一次內存映射,都需要關聯 4 KB 或者 4KB 整數倍的內存空間。
多級頁表(Multilevel page tables)就是把內存分成區塊來管理,將原來的映射關系改成區塊索引和區塊內的偏移。由於虛擬內存空間通常只用了很少一部分,那么,多級頁表就只保存這些使用中的區塊,這樣就可以大大地減少頁表的項數。Linux 用的正是四級頁表來管理內存頁。如下圖所示,虛擬地址被分為 5 個部分,前 4 個表項用於選擇頁,而最后一個索引表示頁內偏移。

大頁(HugePage)就是比普通頁更大的內存塊,常見的大小有 2MB 和 1GB。大頁通常用在使用大量內存的進程上,比如 Oracle、DPDK 等。
虛擬內存空間分布

在這五個內存段中,堆和文件映射段的內存是動態分配的。比如說,使用 C 標准庫的 malloc() 或者 mmap() ,就可以分別在堆和文件映射段動態分配內存
內存回收機制
系統不會任由某個進程用完所有內存。在發現內存緊張時,系統就會通過一系列機制來回收內存:
- 回收緩存,比如使用 LRU(Least Recently Used)算法,回收最近使用最少的內存頁面;
- 回收不常訪問的內存,把不常用的內存通過交換分區直接寫到磁盤中;
回收不常訪問的內存時,會用到交換分區(以下簡稱 Swap)。Swap 其實就是把一塊磁盤空間當成內存來用。它可以把進程暫時不用的數據存儲到磁盤中(這個過程稱為換出),當進程訪問這些內存時,再從磁盤讀取這些數據到內存中(這個過程稱為換入)。
- 殺死進程,內存緊張時系統還會通過 OOM(Out of Memory),直接殺掉占用大量內存的進程。
OOM它監控進程的內存使用情況,並且使用 oom_score 為每個進程的內存使用情況進行評分。管理員可以通過 /proc 文件系統,手動設置進程的 oom_adj ,從而調整進程的 oom_score。
內存工具
free
[root@k8s ~]# watch -d free
Every 2.0s: free Wed Apr 8 15:59:31 2020
total used free shared buff/cache available
Mem: 8173864 4094104 276572 436676 3803188 3333024
Swap: 0 0 0
- 第一列,total 是總內存大小;
- 第二列,used 是已使用內存的大小,包含了共享內存;
- 第三列,free 是未使用內存的大小;
- 第四列,shared 是共享內存的大小;
- 第五列,buff/cache 是緩存和緩沖區的大小;
- 最后一列,available 是新進程可用內存的大小(包括了可回收的緩存,所以一般會比未使用內存更大)。
top
[root@k8s ~]# top
…………
KiB Mem : 8173864 total, 275696 free, 4094212 used, 3803956 buff/cache
KiB Swap: 0 total, 0 free, 0 used. 3332920 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
3482 root 20 0 2430460 1224 760 S 85.1 0.0 3557:06 kswapd0
…………
- VIRT 是進程虛擬內存的大小,只要是進程申請過的內存,即便還沒有真正分配物理內存,也會計算在內。
- RES 是常駐內存的大小,也就是進程實際使用的物理內存大小,但不包括 Swap 和共享內存。
- SHR 是共享內存的大小,比如與其他進程共同使用的共享內存、加載的動態鏈接庫以及程序的代碼段等。
- %MEM 是進程使用物理內存占系統總內存的百分比。
Buffer 和 Cache
- 為了協調 CPU 與磁盤間的性能差異,Linux 還會使用 Cache 和 Buffer ,分別把文件和磁盤讀寫的數據緩存到內存中。
- buffers Memory used by kernel buffers (Buffers in /proc/meminfo)
- cache Memory used by the page cache and slabs (Cached and SReclaimable in /proc/meminfo)
- buff/cache Sum of buffers and cache
man proc 對 proc 文件系統的說明
- Buffers 是對原始磁盤塊的臨時存儲,也就是用來緩存磁盤的數據,通常不會特別大(20MB 左右)。這樣,內核就可以把分散的寫集中起來,統一優化磁盤的寫入,比如可以把多次小的寫合並成單次大的寫等等。
- Cached 是從磁盤讀取文件的頁緩存,也就是用來緩存從文件讀取的數據。這樣,下次訪問這些文件數據時,就可以直接從內存中快速獲取,而不需要再次訪問緩慢的磁盤。
- SReclaimable 是 Slab 的一部分。Slab 包括兩部分,其中的可回收部分,用 SReclaimable 記錄;而不可回收部分,用 SUnreclaim 記錄。
Buffer 是對磁盤數據的緩存,而 Cache 是文件數據的緩存,它們既會用在讀請求中,也會用在寫請求中。
總結
對普通進程來說,它能看到的其實是內核提供的虛擬內存,這些虛擬內存還需要通過頁表,由系統映射為物理內存。
當進程通過 malloc() 申請內存后,內存並不會立即分配,而是在首次訪問時,才通過缺頁異常陷入內核中分配內存。
由於進程的虛擬地址空間比物理內存大很多,Linux 還提供了一系列的機制,應對內存不足的問題,比如緩存的回收、交換分區 Swap 以及 OOM 等。
Buffer 和 Cache 分別緩存磁盤和文件系統的讀寫數據。
- 從寫的角度來說,不僅可以優化磁盤和文件的寫入,對應用程序也有好處,應用程序可以在數據真正落盤前,就返回去做其他工作。
- 從讀的角度來說,既可以加速讀取那些需要頻繁訪問的數據,也降低了頻繁 I/O 對磁盤的壓力。
學習筆記
整理自極客時間:《Linux性能優化實戰》
