Linux 內存管理


內存映射

Linux 內核給每個進程都提供了一個獨立的虛擬地址空間,並且這個地址空間是連續的。這樣,進程就可以很方便地訪問內存,更確切地說是訪問虛擬內存。

虛擬地址空間的內部又被分為內核空間和用戶空間兩部分,不同字長(也就是單個 CPU 指令可以處理數據的最大長度)的處理器,地址空間的范圍也不同。比如最常見的 32 位和 64 位系統,如圖:

並不是所有的虛擬內存都會分配物理內存,只有那些實際使用的虛擬內存才分配物理內存,並且分配后的物理內存,是通過內存映射來管理的。

內存映射,其實就是將虛擬內存地址映射到物理內存地址。為了完成內存映射,內核為每個進程都維護了一張頁表(頁表實際上存儲在 CPU 的內存管理單元 MMU 中),記錄虛擬地址與物理地址的映射關系。

當進程訪問的虛擬地址在頁表中查不到時,系統會產生一個缺頁異常,進入內核空間分配物理內存、更新進程頁表,最后再返回用戶空間,恢復進程的運行。(內存調用,都只在首次訪問時才分配,也就是通過缺頁異常進入內核中,再由內核來分配內存。

多級頁表和大頁

MMU 規定了一個內存映射的最小單位,也就是頁,通常是 4 KB 大小。這樣,每一次內存映射,都需要關聯 4 KB 或者 4KB 整數倍的內存空間。

多級頁表(Multilevel page tables)就是把內存分成區塊來管理,將原來的映射關系改成區塊索引和區塊內的偏移。由於虛擬內存空間通常只用了很少一部分,那么,多級頁表就只保存這些使用中的區塊,這樣就可以大大地減少頁表的項數。Linux 用的正是四級頁表來管理內存頁。如下圖所示,虛擬地址被分為 5 個部分,前 4 個表項用於選擇頁,而最后一個索引表示頁內偏移。

大頁(HugePage)就是比普通頁更大的內存塊,常見的大小有 2MB 和 1GB。大頁通常用在使用大量內存的進程上,比如 Oracle、DPDK 等。

虛擬內存空間分布

在這五個內存段中,堆和文件映射段的內存是動態分配的。比如說,使用 C 標准庫的 malloc() 或者 mmap() ,就可以分別在堆和文件映射段動態分配內存

內存回收機制

系統不會任由某個進程用完所有內存。在發現內存緊張時,系統就會通過一系列機制來回收內存:

  • 回收緩存,比如使用 LRU(Least Recently Used)算法,回收最近使用最少的內存頁面;
  • 回收不常訪問的內存,把不常用的內存通過交換分區直接寫到磁盤中;

回收不常訪問的內存時,會用到交換分區(以下簡稱 Swap)。Swap 其實就是把一塊磁盤空間當成內存來用。它可以把進程暫時不用的數據存儲到磁盤中(這個過程稱為換出),當進程訪問這些內存時,再從磁盤讀取這些數據到內存中(這個過程稱為換入)。

  • 殺死進程,內存緊張時系統還會通過 OOM(Out of Memory),直接殺掉占用大量內存的進程。

OOM它監控進程的內存使用情況,並且使用 oom_score 為每個進程的內存使用情況進行評分。管理員可以通過 /proc 文件系統,手動設置進程的 oom_adj ,從而調整進程的 oom_score。

內存工具

free

[root@k8s ~]# watch -d free

Every 2.0s: free                                                                                                                                          Wed Apr  8 15:59:31 2020

              total        used        free	 shared  buff/cache   available
Mem:        8173864     4094104      276572	 436676     3803188     3333024
Swap:             0           0           0

  • 第一列,total 是總內存大小;
  • 第二列,used 是已使用內存的大小,包含了共享內存;
  • 第三列,free 是未使用內存的大小;
  • 第四列,shared 是共享內存的大小;
  • 第五列,buff/cache 是緩存和緩沖區的大小;
  • 最后一列,available 是新進程可用內存的大小(包括了可回收的緩存,所以一般會比未使用內存更大)。

top

[root@k8s ~]# top
…………
KiB Mem :  8173864 total,   275696 free,  4094212 used,  3803956 buff/cache
KiB Swap:        0 total,        0 free,        0 used.  3332920 avail Mem

 PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
 3482 root      20   0 2430460   1224    760 S  85.1  0.0   3557:06 kswapd0
 
 …………
  • VIRT 是進程虛擬內存的大小,只要是進程申請過的內存,即便還沒有真正分配物理內存,也會計算在內。
  • RES 是常駐內存的大小,也就是進程實際使用的物理內存大小,但不包括 Swap 和共享內存。
  • SHR 是共享內存的大小,比如與其他進程共同使用的共享內存、加載的動態鏈接庫以及程序的代碼段等。
  • %MEM 是進程使用物理內存占系統總內存的百分比。

Buffer 和 Cache

  • 為了協調 CPU 與磁盤間的性能差異,Linux 還會使用 Cache 和 Buffer ,分別把文件和磁盤讀寫的數據緩存到內存中。
  • buffers Memory used by kernel buffers (Buffers in /proc/meminfo)
  • cache Memory used by the page cache and slabs (Cached and SReclaimable in /proc/meminfo)
  • buff/cache Sum of buffers and cache

man proc 對 proc 文件系統的說明

  • Buffers 是對原始磁盤塊的臨時存儲,也就是用來緩存磁盤的數據,通常不會特別大(20MB 左右)。這樣,內核就可以把分散的寫集中起來,統一優化磁盤的寫入,比如可以把多次小的寫合並成單次大的寫等等。
  • Cached 是從磁盤讀取文件的頁緩存,也就是用來緩存從文件讀取的數據。這樣,下次訪問這些文件數據時,就可以直接從內存中快速獲取,而不需要再次訪問緩慢的磁盤。
  • SReclaimable 是 Slab 的一部分。Slab 包括兩部分,其中的可回收部分,用 SReclaimable 記錄;而不可回收部分,用 SUnreclaim 記錄。

Buffer 是對磁盤數據的緩存,而 Cache 是文件數據的緩存,它們既會用在讀請求中,也會用在寫請求中。

總結

對普通進程來說,它能看到的其實是內核提供的虛擬內存,這些虛擬內存還需要通過頁表,由系統映射為物理內存。

當進程通過 malloc() 申請內存后,內存並不會立即分配,而是在首次訪問時,才通過缺頁異常陷入內核中分配內存。

由於進程的虛擬地址空間比物理內存大很多,Linux 還提供了一系列的機制,應對內存不足的問題,比如緩存的回收、交換分區 Swap 以及 OOM 等。

Buffer 和 Cache 分別緩存磁盤和文件系統的讀寫數據。

  • 從寫的角度來說,不僅可以優化磁盤和文件的寫入,對應用程序也有好處,應用程序可以在數據真正落盤前,就返回去做其他工作。
  • 從讀的角度來說,既可以加速讀取那些需要頻繁訪問的數據,也降低了頻繁 I/O 對磁盤的壓力。

學習筆記
整理自極客時間:《Linux性能優化實戰》


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM