Linux-內存管理機制、內存監控、buffer/cache異同


  在Linux中經常發現空閑內存很少,似乎所有的內存都被系統占用了,表面感覺是內存不夠用了,其實不然。這是Linux內存管理的一個優秀特性,主要特點是,無論物理內存有多大,Linux 都將其充份利用,將一些程序調用過的硬盤數據讀入內存(buffer/cache),利用內存讀寫的高速特性來提高Linux系統的數據訪問性能。在這方面,區別於Windows的內存管理。本文從Linux的內存管理機制入手,簡單介紹linux如何使用內存、監控內存,linux與windows內存管理上的區別簡介,linux內存使用的一大特點(buffer/cache的異同)

一、Linux內存管理機制

1、物理內存和虛擬內存
  我們知道,直接從物理內存讀寫數據要比從硬盤讀寫數據要快的多,因此,我們希望所有數據的讀取和寫入都在內存完成,而內存是有限的,這樣就引出了物理內存與虛擬內存的概念。

     物理內存就是系統硬件提供的內存大小,是真正的內存,相對於物理內存,在linux下還有一個虛擬內存的概念,虛擬內存就是為了滿足物理內存的不足而提出的策略,它是利用磁盤空間虛擬出的一塊邏輯內存,用作虛擬內存的磁盤空間被稱為交換空間(Swap Space)。

  作為物理內存的擴展,linux會在物理內存不足(注意這一條件,這一條件的量化分析請參考https://www.douban.com/note/349467816/)時,使用交換分區的虛擬內存,更詳細的說,就是內核會將暫時不用的內存塊信息寫到交換空間,這樣以來,物理內存得到了釋放,這塊內存就可以用於其它目的,當需要用到原始的內容時,這些信息會被重新從交換空間讀入物理內存。

  Linux的內存管理采取的是分頁存取機制(詳細可參考http://www.linuxeye.com/Linux/1931.html),為了保證物 理內存能得到充分的利用,內核會在適當的時候將物理內存中不經常使用的數據塊自動交換到虛擬內存中,而將經常使用的信息保留到物理內存。

  要深入了解linux內存運行機制,需要知道下面提到的幾個方面:

    Linux系統會根據系統配置不時地進行頁面交換操作,以保持一定量的空閑物理內存,有些配置下即使並沒有什么事情需要內存,Linux也會交換出暫時不用的內存頁面。這可以避免等待交換所需的時間。相關的配置有/etc/sysctl.conf中的vm.swappiness配置(配制方法請參考http://www.vcaptain.com/?id=17),該參數的作用簡單描述就是“當 swappiness 內容的值為 0 時,表示最大限度地使用物理內存,物理內存使用完畢后,才會使用 swap 分區;當 swappiness 內容的值為 100 時,表示積極地使用 swap 分區,並且把內存中的數據及時地置換到 swap 分區。Linux 系統初始安裝完成時,其默認值為 60, 這表示空閑物理內存少於 60% 時開始啟用內存置換算法,將內存中不常使用的數據置換到 swap 分區。”(具體如何起作用請參考https://www.douban.com/note/349467816/)
  Linux 進行頁面交換是有條件的,不是所有頁面在不用時都交換到虛擬內存,linux內核根據”最近最經常使用“算法,僅僅將一些不經常使用的頁面文件交換到虛擬 內存,有時我們會看到這么一個現象:linux物理內存還有很多,但是交換空間也使用了很多。其實,這並不奇怪,例如:一個占用很大內存的進程運行時,需 要耗費很多內存資源,此時就會有一些不常用頁面文件被交換到虛擬內存中,但后來這個占用很多內存資源的進程結束並釋放了很多內存時,剛才被交換出去的頁面 文件並不會自動的交換進物理內存,除非有這個必要,那么此刻系統物理內存就會空閑很多,同時交換空間也在被使用,就出現了剛才所說的現象了。關於這點,不 用擔心什么,只要知道是怎么一回事就可以了。
  交換空間的頁面在使用時會首先被交換到物理內存,如果此時沒有足夠的物理內存來容納這些頁 面,它們又會被馬上交換出去,如此以來,虛擬內存中可能沒有足夠空間來存儲這些交換頁面,最終會導致linux出現假死機、服務異常等問題,linux雖 然可以在一段時間內自行恢復,但是恢復后的系統已經基本不可用了。

  分配太多的Swap空間會浪費磁盤空間,而Swap空間太少,則系統會發生錯誤。 如果系統的物理內存用光了,系統就會跑得很慢,但仍能運行;如果Swap空間用光了,那么系統就會發生錯誤。例如,Web服務器能根據不同的請求數量衍生 出多個服務進程(或線程),如果Swap空間用完,則服務進程無法啟動,通常會出現“application is out of memory”的錯誤,嚴重時會造成服務進程的死鎖。因此Swap空間的分配是很重要的。
  因此,合理規划和設計Linux內存的使用,是非常重要的。

二、內存的監控


    作為一名Linux系統管理員,監控內存的使用狀態是非常重要的,通過監控有助於了解內存的使用狀態,比如內存占用是否正常,內存是否緊缺等等,監控內存最常使用的命令有free、top等,下面是某個系統free的輸出(free默認單位是KB):

[root@xxxxx ~]# free  
                   total         used           free     shared    buffers     cached  
Mem:     3894036    3473544      420492          0      72972    1332348  
-/+ buffers/cache:    2068224    1825812  
Swap:     4095992      906036    3189956 

我們使用total1、used1、 free1、used2、free2 等名稱來代表上面統計數據的各值,1、2 分別代表第一行(不考慮標題行)和第二行(不考慮標題行)的數據。
--------第一行數據:代表內核角度的統計--------
total1:表示物理內存總量。
used1:表示已使用(已分配出去)的物理內存總量,包括真正已使用和分配給緩存(包含buffers 與cached)的數量。
free1:未被分配的物理內存。
shared1:共享內存,一般系統不會用到,這里也不討論。
buffers1: 系統分配給buffers 的內存大小。
cached1:系統分配給cached 的內存數量。buffer 與cache 的區別見后面。
--------第二行數據:代表應用角度的統計--------
used2:實際使用內存總量。
free2:系統當前實際可用內存,包括未被分配的內存以及分配給buffers 與cached 的內存之和。

可以整理出如下等式:
total1 = used1 + free1
total1 = used2 + free2
used1 = buffers1 + cached1 + used2
free2 = buffers1 + cached1 + free1

上面提到free命令輸出的內存狀態,可以通過兩個角度來查看:一個是從內核的角度來看,一個是從應用層的角度來看的:

  1)、從內核的角度來查看內存的狀態
    就是內核目前可以直接分配到,不需要額外的操作,即為上面free命令輸出中第二行Mem項的值,可以看出,此系統物理內存有3894036K,空閑的內存只有420492KB,也就是410MB多一點,我們來做一個這樣的計算:
    total1 - used1 = free1
    3894036 - 3473544 = 420492
    其實就是總的物理內存減去已分配的物理內存得到的就是空閑的物理內存大小,注意這里的可用內存值420492K並不包含處於buffers和cached狀態的內存大小。如果你認為這個系統空閑內存太小,那你就錯了,實際上,內核完全控制着內存的使用情況,Linux會在需要內存的時候,或在系統運行逐步推進時,將buffers和cached狀態的內存變為free狀態的內存,以供系統使用。
  2)、從應用層的角度來看系統內存的使用狀態
    也就是Linux上運行的應用程序可以使用的內存大小,即free命令第三行(這里說的第幾行包含了標題行) -/+ buffers/cached 的輸出,可以看到,此系統已經使用的內存才2068224K,而空閑的內存達到1825812K,繼續做這樣一個計算:
    free2 = buffers1 + cached1 + free1
    420492+(72972+1332348)=1825812
    通過這個等式可知,應用程序可用的物理內存值是Mem項的free值(free1)加上buffers1和cached1值之和,也就是說,這個free值是包括buffers和cached項大小的,對於應用程序來說,buffers/cached占有的內存是可用的,因為buffers/cached是為了提高文件讀取的性能,當應用程序需要用到內存的時候,buffers/cached會很快地被回收,以供應用程序使用。

 

  更好的理解 buffer + cache

    Mem: 72433 67075 5357 0 558 62221
    -/+ buffers/cache: 4295 68138
    Swap: 72096 91 72004
    上述結果顯示了67075M的used,但是(-/+ buffers/cache)減去buffers和cache的結果可以看到,所以當前進程實際占用內存是4296M。
    可以這么理解:在linux的內存分配機制中,優先使用物理內存,當物理內存還有空閑時(還夠用),不會釋放其占用內存,就算占用內存的程序已經被關閉了,該程序所占用的內存用來做緩存使用,對於開啟過的程序、或是讀取剛存取過得數據會比較快。
    如上面的例子:使用了72433M的內存,67075M被占用,但是buuffer和cached部分作為緩存,可以使用命中率的方式提高使用效率,而且這部分緩存是根據指令隨時可以釋放的,我們可以認為這部分內存沒有實際被使用,也可以認為它是空閑的。
    因此查看目前進程正在實際被使用的內存,是used-(buffers+cache),也可以認為如果swap沒有大量使用,mem還是夠用的,只有mem被當前進程實際占用完(沒有了buffers和cache),才會使用到swap的。



三、linux和windows內存管理的區別
    Linux 優先使用物理內存,當物理內存還有空閑時,linux是不會釋放內存的,即時占用內存的程序已經被關閉了(這部分內存就用來做緩存了)。也就是說,即時你 有很大的內存,用過一段時間后,也會被占滿。這樣做的好處是,啟動那些剛開啟過的程序、或是讀取剛存取過得數據會比較快,對於服務器很有好處。
    windows則總是給內存留下一定的空閑空間,即時內存有空閑也會讓程序使用一些虛擬內存,這樣做的好處是,啟動新的程序比較快,直接分給它些空閑 內存就可以了,而linux下呢?由於內存經常處於全部被使用的狀態,則要先清理出一塊內存,再分配給新的程序使用,因此,新程序的啟動會慢一些。

四、buffers與cached
  1)、異同點
  在Linux 操作系統中,當應用程序需要讀取文件中的數據時,操作系統先分配一些內存,將數據從磁盤讀入到這些內存中,然后再將數據分發給應用程序;當需要往文件中寫 數據時,操作系統先分配內存接收用戶數據,然后再將數據從內存寫到磁盤上。然而,如果有大量數據需要從磁盤讀取到內存或者由內存寫入磁盤時,系統的讀寫性 能就變得非常低下,因為無論是從磁盤讀數據,還是寫數據到磁盤,都是一個很消耗時間和資源的過程,在這種情況下,Linux引入了buffers和 cached機制。

  buffers與cached都是內存操作,用來保存系統曾經打開過的文件以及文件屬性信息,這樣當操作系統需要讀取某些文件時,會首先在buffers 與cached內存區查找,如果找到,直接讀出傳送給應用程序,如果沒有找到需要數據,才從磁盤讀取,這就是操作系統的緩存機制,通過緩存,大大提高了操 作系統的性能。但buffers與cached緩沖的內容卻是不同的。

  buffers是用來緩沖塊設備做的,它只記錄文件系統的元數據(metadata)以及 tracking in-flight pages,而cached是用來給文件做緩沖。更通俗一點說:buffers主要用來存放目錄里面有什么內容,文件的屬性以及權限等等。而cached直接用來記憶我們打開過的文件和程序。

  為了驗證我們的結論是否正確,可以通過vi打開一個非常大的文件,看看cached的變化,然后再次vi這個文件,感覺一下兩次打開的速度有何異同,是不 是第二次打開的速度明顯快於第一次呢?這里提供一個小腳本打印首次及第二次打開一個大文件(catalina.logaa  約2G)耗時及cached/buffers的變化:

 #!/bin/bash  
sync  
sync  
echo 3 > /proc/sys/vm/drop_caches   
echo -e "----------------------緩存釋放后,內存使用情況(KB):----------------------"  
free  
cached1=`free |grep Mem:|awk '{print $7}'`  
buffers1=`free |grep Mem:|awk '{print $6}'`  
date1=`date +"%Y%m%d%H%M%S"`  
cat catalina.logaa >1  
date2=`date +"%Y%m%d%H%M%S"`  
echo -e "----------------------首次讀取大文件后,內存使用情況(KB):----------------------"  
free  
cached2=`free |grep Mem:|awk '{print $7}'`  
buffers2=`free |grep Mem:|awk '{print $6}'`  
#echo $date1  
#echo $date2  
interval_1=`expr ${date2} - ${date1}`  
cached_increment1=`expr ${cached2} - ${cached1}`  
buffers_increment1=`expr ${buffers2} - ${buffers1}`  
  
date3=`date +"%Y%m%d%H%M%S"`  
cat catalina.logaa >1  
date4=`date +"%Y%m%d%H%M%S"`  
echo -e "----------------------再次讀取大文件后,內存使用情況(KB):----------------------"  
free  
cached3=`free |grep Mem:|awk '{print $7}'`  
buffers3=`free |grep Mem:|awk '{print $6}'`  
#echo $date3  
#echo $date4  
interval_2=`expr ${date4} - ${date3}`  
cached_increment2=`expr ${cached3} - ${cached2}`  
buffers_increment2=`expr ${buffers3} - ${buffers2}`  
echo -e "----------------------統計匯總數據如下:----------------------"  
echo -e "首次讀取大文件,cached增量:${cached_increment1},單位:KB"  
echo -e "首次讀取大文件,buffers增量:${buffers_increment1},單位:KB"  
echo -e "首次讀取大文件,耗時:${interval_1},單位:s \n"  
echo -e "再次讀取大文件,cached增量:${cached_increment2},單位:KB"  
echo -e "再次讀取大文件,buffers增量:${buffers_increment2},單位:KB"  
echo -e "再次讀取大文件,耗時:${interval_2},單位:s"  

  執行結果如下(由於打印出來的free結果跟參數賦值時用的free命令之間有時間間隔,計算起來可能會略有不同):


接着執行下面的命令:find /* -name  *.conf ,看 看buffers的值是否變化,然后重復執行find命令,看看兩次顯示速度有何不同。如下腳本(需要注意使用bc計算浮點型數據時需要安裝相應軟件,我 的系統是centos7.0,內核4.3.3的版本,安裝的是bc-1.06.95-13.el7.x86_64服務):

#!/bin/bash  
sync  
sync  
echo 3 > /proc/sys/vm/drop_caches  
echo -e "----------------------緩存釋放后,內存使用情況(KB):----------------------"  
free  
cached1=`free |grep Mem:|awk '{print $7}'`  
buffers1=`free |grep Mem:|awk '{print $6}'`  
date1=`date +%s.%N`  
find /* -name  *.conf >2  
date2=`date +%s.%N`  
echo -e "----------------------首次查詢后,內存使用情況(KB):----------------------"  
free  
cached2=`free |grep Mem:|awk '{print $7}'`  
buffers2=`free |grep Mem:|awk '{print $6}'`  
#echo $date1  
#echo $date2  
interval_1=`echo "scale=3; ${date2} - ${date1}" | bc`  
cached_increment1=`expr ${cached2} - ${cached1}`  
buffers_increment1=`expr ${buffers2} - ${buffers1}`  
  
date3=`date +%s.%N`  
find /* -name  *.conf >2  
date4=`date +%s.%N`  
echo -e "----------------------再次查詢后,內存使用情況(KB):----------------------"  
free  
cached3=`free |grep Mem:|awk '{print $7}'`  
buffers3=`free |grep Mem:|awk '{print $6}'`  
#echo $date3  
#echo $date4  
interval_2=`echo "scale=3; ${date4} - ${date3}" | bc`  
cached_increment2=`expr ${cached3} - ${cached2}`  
buffers_increment2=`expr ${buffers3} - ${buffers2}`  
echo -e "----------------------統計匯總數據如下:----------------------"  
echo -e "首次查詢,cached增量:${cached_increment1},單位:KB"  
echo -e "首次查詢,buffers增量:${buffers_increment1},單位:KB"  
echo -e "首次查詢,耗時:${interval_1},單位:s \n"  
echo -e "再次查詢,cached增量:${cached_increment2},單位:KB"  
echo -e "再次查詢,buffers增量:${buffers_increment2},單位:KB"  
echo -e "再次查詢,耗時:${interval_2},單位:s"  

結果如下(最后那個應該是0.470702440,使用bc計算的時候那個0被去掉了):

2、內存釋放
    linux系統中/proc是一個虛擬文件系統,我們可以通過對它的讀寫操作做為與kernel實體間進行通信的一種手段。也就是說可以通過修改 /proc中的文件,來對當前kernel的行為做出調整。那么我們可以通過調整/proc/sys/vm/drop_caches來釋放內存。關於drop_caches,官方給出的說法是:

   Writing to this will cause thekernel to drop clean caches, dentries and  
    inodes from memory, causing thatmemory to become free.  
    To free pagecache:  
             echo 1 > /proc/sys/vm/drop_caches  
    To free dentries and inodes:  
             echo 2 > /proc/sys/vm/drop_caches  
    To free pagecache, dentries andinodes:  
             echo 3 > /proc/sys/vm/drop_caches  
    As this is a non-destructiveoperation and dirty objects are not freeable, the  
    user should run `sync' first.  
    http://www.kernel.org/doc/Documentation/sysctl/vm.txt  

# cat /proc/sys/vm/drop_caches
0
默認是0,1表示清空頁緩存,2表示清空inode和目錄樹緩存,3清空所有的緩存

[root@hps103 ~]# sync
[root@hps103 ~]# free -m
                     total       used        free     shared    buffers     cached
Mem:              499         323        175             0          52         188
-/+ buffers/cache:            82         416
Swap:            2047            0       2047

[root@hps103 ~]# echo 3 > /proc/sys/vm/drop_caches
[root@hps103 ~]# free -m     //發現緩存明顯減少了
                    total       used        free     shared    buffers     cached
Mem:             499          83         415            0            1           17
-/+ buffers/cache:           64         434
Swap:           2047            0        2047

五、總結
    Linux操作系統的內存運行原理,很大程度上是根據服務器的需求來設計的,例如系統的緩沖機制會把經常使用到的文件和數據緩存在cached 中,linux總是在力求緩存更多的數據和信息,這樣再次需要這些數據時可以直接從內存中取,而不需要有一個漫長的磁盤操作,這種設計思路提高了系統的整 體性能。

主要參考文章:http://www.linuxeye.com/Linux/1932.html

轉自:http://blog.csdn.net/huangjin0507/article/details/51178768


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM