Linux內存管理 —— 文件系統緩存和匿名頁的交換【轉】

本文轉載自查看原文 2020-09-28 22:57 437 【linux內存管理】

轉自：https://blog.csdn.net/jasonchen_gbd/article/details/79462014

1. swap的含義

在Linux里swap有兩個意思：
1. 動詞：交換。內存和磁盤的顛簸行為。
2. 名詞：硬盤的swap分區。

沒有文件背景的頁面，即匿名頁（anonymous page），如堆，棧，數據段等，不是以文件形式存在，因此無法和磁盤文件交換，但可以通過硬盤上划分額外的swap交換分區或使用交換文件進行交換。即上面wap作為名詞的意思。Swap分區可以將不活躍的頁交換到硬盤中，緩解內存緊張。

注意，即使沒有swap分區，也會存在swap行為，因為有文件背景的頁面（file-backed page）也會有swap，即第1點的磁盤和內存之間的交換。

對於有文件背景的頁面，程序去讀文件時，可以通過read也可以通過mmap去讀。當你通過任何一種方式從磁盤讀文件時，內核都會給你申請一個page cache，來緩存硬盤上的內容。這樣的話，讀過一遍的數據，本進程或其他進程下次再讀的時候就直接從page cache里去拿，就很快了，提升系統的整體性能。因此用戶的read/write實際上是跟page cache的相互拷貝。
而用戶的mmap則會將一段虛擬地址（3G）以下映射到page cache上，這樣的話，用戶就可以通過讀寫這段虛擬地址來修改文件內容，省去了內核和用戶之間的拷貝。

所以文件對於用戶程序來講其實只是內存，page cache就是磁盤中文件的一個副本。可以通過 “echo 3 > /proc/sys/vm/drop_cache” 來清cache。清掉之后，進程第一次讀文件就會變慢。

通過free命令可以看到當前page cache占用內存的大小，free命令中會打印buffers和cached（有的版本free命令將二者放到一起了）。通過文件系統來訪問文件（掛載文件系統，通過文件名打開文件）產生的緩存就由cached記錄，而直接操作裸盤（打開/dev/sda設備去讀寫）產生的緩存就由buffers記錄。

root@jchen:~# free total used free shared buffers Mem: 254316 68568 185748 0 6676 -/+ buffers: 61892 192424 Swap: 0 0 0

實際上文件系統本身再讀寫文件就是操作裸分區的方式，用戶態也可以直接操作裸盤，像dd命令操作一個設備名也是直接訪問裸分區。那么，通過文件系統讀寫的時候，就會既有cached又有buffers。從圖中可以看到，文件名等元數據和文件系統相關，是進cached，實際的數據緩存還是在buffers。例如，read一個文件（如ext4文件系統）的時候，如果文件cache命中了，就不用走到ext4層，從vfs層就返回了。
這里寫圖片描述
當然，還可以在open的時候加上O_DIRECT標記，做直接IO，就連buffers都不進了，直接讀寫磁盤。
free命令的第二行打印即是將buffers/cache作為可用內存統計到used和free的列。

2. 頁面回收(reclaim)

2.1 回收時機

有文件背景的數據實際上就是page cache，但page cache不能無限增加，不能說慢慢的所有文件都緩存到內存了。肯定要有一個機制，讓不常用的文件數據從page cache刷出去。內核中有一個水位控制的機制，在系統內存不夠用的時候，會觸發頁面回收。

對於沒有文件背景的頁面即匿名頁，比如堆、棧、數據段，如果沒有swap分區，不能與磁盤交換，就要常駐內存了。這里需要特殊說明一下數據段，數據段實際上在磁盤文件里，如果一個程序的全局變量的某一頁的數據都還沒有被修改過，就沒必要產生匿名頁，而一旦被修改了，就變成匿名頁了，因為你不能回寫磁盤啊，不能下次重新執行程序的時候變量初始值變了……。
但是常駐內存的話，就會吃內存，可以通過給硬盤搞一個swap分區或硬盤中創建一個交換文件(swapfile)讓匿名頁也能交換到磁盤上。可認為是為匿名頁偽造的文件背景。swap分區或swap文件實際上最終是到達了增大內存的效果。當然，如果頻繁交換的話，被交換出去的數據的訪問就會慢一些，因為要有IO操作了。

無論是有文件背景的頁還是匿名頁，交換（這里指換出）的時機有兩個：

內核通過kswapd內核線程慢慢回收，回收的時機由水位控制。
人為地主動地進行drop_cache。由於第1點要等到內存不足的時候才swap，可以通過這種方式主動發起回收。

內核中有個CONFIG_SWAP選項，可以控制匿名頁的交換，如果關掉這個選項，就不能使用swap分區和交換文件了。但有文件背景的頁本來就在磁盤里，因此仍可以交換，不受該選項影響。也可以在開了CONFIG_SWAP的情況下，通過swapoff命令，將匿名頁的swap功能關掉（如果此時swap分區里有內容，則會先換入），相應的使用swapon命令重新打開匿名頁的swap功能。

2.2 水位（watermark）控制

內核中有三個水位：

low：當剩余內存慢慢減少，觸到這個水位時，就會觸發kswapd線程的內存回收。
min：如果剩余內存減少到觸及這個水位，可認為內存嚴重不足，當前進程就會被堵住，kernel會直接在這個進程的進程上下文里面做內存回收（direct reclaim）。
high: 進行內存回收時，內存慢慢增加，觸到這個水位時，就停止回收。

由於每個ZONE是分別管理各自內存的，因此每個ZONE都有這三個水位。

swapness：
內存回收的過程就相應的會有page cache向磁盤或匿名頁向swap分區回寫的過程。回收的時候，是回收有文件背景的頁還是匿名頁呢，都會回收，但可通過/proc/sys/vm/swapness來控制讓誰回收多一點點。這個值比較大時，就回收匿名頁多一點點，比較小就反之。
所以swapness反映了是否積極地使用swap空間，而將swapness=0則意味着不再交換匿名頁，除非當內存不足(free and file-backed pages < high watermark in a zone)的情況下才使用swap空間（這里的意思是，內存觸到low之后就發起回收，直到內存回到high水位停止，但如果回收完file-backed頁面都到不了high，就得開始回收匿名頁了，這段時間內即使swapness=0也出現了回收匿名頁的情況）。
另外需要注意，/proc/sys/vm/swapness是控制全局的swap特性的。cgroup的swapness優先級高些，如果一個cgroup的swapness關掉，全局的沒關，那么這個cgroup里的進程的swap就是關掉的。也就是說，全局的swapness是控制不在cgroup里面的進程的swap特性的。

回收的過程是依據LRU，即最近最少使用的頁會被回收，Linux內核一直在評估哪些是LRU的頁面即最不活躍的頁面。

root@none:~# cat /proc/meminfo MemTotal: 254316 kB MemFree: 185748 kB Buffers: 6676 kB Cached: 22716 kB SwapCached: 0 kB Active: 25472 kB <---- Inactive: 23164 kB <---- Active(anon): 19684 kB <---- Inactive(anon): 456 kB <---- Active(file): 5788 kB <---- Inactive(file): 22708 kB <---- Unevictable: 0 kB Mlocked: 0 kB SwapTotal: 0 kB SwapFree: 0 kB Dirty: 0 kB Writeback: 0 kB AnonPages: 19272 kB …… ……

這里cat /proc/meminfo看到的active和inactive的內存就是指lru算法里面去評估的一個頁面的使用情況（有沒有被訪問過），inactive的頁面中最inactive的頁面最先被回收。如果inactive的頁都回收了但內存仍然不夠，也會從active的頁中回收相對最不活躍的頁面。

所以我們就知道，如果lowmem被使用殆盡，觸及low或min水位，內核的普通kmalloc就申請不到內存了，就會觸發cache/buffers的回收和匿名頁swap，再不行就OOM了。

注意sync和swap的區別哦。sync是回寫臟頁，即page cache被修改后與磁盤原文件內容不同步的頁，回寫完后內存也不會回收，回收還是要等到kswapd或direct reclaim。進程打開並使用一個文件后調用close()，是不會回寫臟頁的，要顯示地調用sync()/fsync()。

再說一下tmpfs，tmpfs是存放臨時文件用的，還用於linux的posix和sysv共享內存，共享內存這種進程通信方式底層就是tmpfs。它其實是沒有文件背景的，因此如果有swap，就交換到swap分區，沒有就常駐內存。但是在統計內存的時候，是把tmpfs占的內存統計到page cache的，這里就有點繞。所以有時你在drop_cache后發現cache/buffers仍然很大，可能就是因為tmpfs的內存無法回收。
另外對於內核空間，內核的內存，如代碼、數據、申請的內存，一般是不能被回收的。內核產生的文件cache、一些數據結構如dentry和inode等充當緩存的內存這些是可以回收的。

如何計算水位
/proc/sys/vm/min_free_kbytes 是一個用戶可配置的值，默認值是根據每個lowmem zone的內存大小算出來的（不是隨着內存大小線性增長的）。這個值就決定了min的值，然后根據min算出來low和high水位的值。結果就是high>low>min。
在/proc/zoneinfo中可以看到每個zone的水位情況。具體計算方法見init_per_zone_wmark_min(void)函數。

比較特殊的是highmem，highmem的水位不是根據min_free_kbytes計算，而是將其min設置為一個很小值，因為低水位是為了給緊急內存使用（如處理OOM也要使用內存），而緊急內存（__GFP_HIGH和PF_MEMALLOC）的分配不會在highmem上進行，因此不用預留太多。low和high仍然和其他zone一樣由min計算得出，因為highmem仍有內存回收機制。

在kmalloc的時候加上PF_MEMALLOC標記就可以忽略內存管理的水位限制分配內存。當然，內核關鍵代碼會這樣用，你自己的代碼就不要加這個標記了。

/proc/sys/vm/lowmem_reserve_ratio 可以對低端內存做進一步保護。我們知道越低端內存越珍貴，lowmem_reserve_ratio可以讓kernel申請內存的時候不至於出現低端內存快用完了而高端內存還有可用的情況。它實際上是在watermark的基礎上又預留出一段內存：在因為申請highmem得不到內存而轉為向lowmem申請的情況下，lowmem的min就會變得嚴格，可能會讓高端內存先嘗試內存回收在分配內存。

3. 臟頁的回寫

上面提到了要注意區別sync和swap，這里也講一下。sync是用來回寫臟頁的，臟頁不能在內存中呆的太久，因為如果突然斷電沒有寫到硬盤的臟數據就丟了，另一方面如果攢了很多一起寫回也會明顯占用CPU時間。

控制臟頁何時寫回：
下面這些變量是整個系統的，見kernel/sysctl.c中的定義：

static struct ctl_table vm_table[] = { …… };

dirty_ratio: 一個寫磁盤的進程所產生的臟頁到達這個比例時，這個進程自己就會去回寫臟頁。
dirty_expire_centisecs: 臟頁的到期時間，或理解為老化時間，單位是1/100s，內核中的flusher thread會檢查駐留內存的時間超過dirty_expire_centisecs的臟頁，超過的就回寫。
dirty_writeback_centisecs: 內核的flusher thread周期性被喚醒(wakeup_flusher_threads())的時間間隔，每次被喚醒都會去檢查是否有臟頁老化了。如果將這個值置為0，則flusher線程就完全不會被喚醒了。
dirty_background_ratio: 如果臟頁的數量超過這個比例時，flusher線程就會啟動臟頁回寫。

因此可以看出，臟頁回寫的時機由時間(dirty_expire_centisecs/dirty_writeback_centisecs)和空間(dirty_ratio/dirty_background_ratio)兩方面共同控制：

即使只有一個臟頁，那如果它超時了，也會被寫回。防止臟頁在內存駐留太久。dirty_expire_centisecs這個值默認是3000，即30s，可以將其設置得短一些，這樣掉電后丟失的數據會更少，但磁盤寫操作也更密集。
不能有太多的臟頁，否則會給磁盤IO造成很大壓力，例如在內存不夠做內存回收時，還要先回寫臟頁，也會明顯耗時。

需要注意的是，在達到dirty_background_ratio后，flusher線程（名為“[flush-devname]”）開始回寫，但由於寫磁盤速度慢，如果此時應用進程還在不停地寫磁盤，flusher線程回寫沒那么快，那么就會導致進程的臟頁達到dirty_ratio，這時這個進程就會去回寫臟頁而導致write被堵住。也就是說dirty_background_ratio通常是比dirty_ratio小的。

臟頁都是指有文件背景的頁面，匿名頁不會存在臟頁。從/proc/meminfo的’Dirty’一行可以看到當前系統的臟頁有多少，用sync命令可以刷掉。

補充：zRAM機制

不用swap分區，也可以用zRAM機制來緩解內存緊張：從內存里拿出一段內存空間（compressed block），作為交換空間模擬硬盤的交換分區，用來交換匿名頁，並且讓kernel看到的物理內存大小不包括這段內存。而這段交換空間自帶透明壓縮功能，即交換到這塊zRAM分區時，Linux會自動將這塊匿名頁壓縮存放。系統訪問這塊頁面的內容時，產生page fault后從交換分區去拿，這時Linux給你透明解壓再交換出來。
使用zRAM的好處，就是訪存比訪問硬盤或flash的速度提高很多，且不用考慮壽命問題，並且由於這段內存是壓縮后存儲的，因此可以存更多的數據，雖然占用了一段內存，但實際可以存更多的數據，也達到了增加內存的效果。缺點就是壓縮要占用CPU時間。

Android里面普遍使用了zRAM技術，由於zRAM犧牲了CPU時間，所以交換次數還是越少越好。像Android和windows，內存越大越好，因為發生交換的幾率就小。這樣兩個進程相互切換（如微博和微信）時就會變得流暢，因為內存足夠的話，后台進程無需被換進swap分區或被OOM殺掉。當然如果你只打打電話，就沒必要大內存啦。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Linux文件系統及管理文件系統中對頁高速緩存的操作 Linux 內存文件系統-ramfs and tmpfs linux內存文件系統之指南 Linux的文件系統及文件緩存知識點整理【轉】第5章 Linux上管理文件系統 Linux文件系統掛載管理 Linux文件系統與磁盤管理 [轉]理解Linux文件系統之inode Linux 文件系統擴展屬性【轉】