Linux虛擬內存(swap)調優篇-“swappiness”,“vm.dirty_background_ratio”和“vm.dirty_ratio”
作者:尹正傑
版權聲明:原創作品,謝絕轉載!否則將追究法律責任。
我的kafka集群在上線一段時間后,發現內存使用達到峰值時系統開始使用swap。在swap的過程中系統性能會有所下降,表現為較大的服務延遲。對這種情況,可以通過調節swappiness內核參數降低系統對swap的使用,從而避免不必要的swap對性能造成的影響。接下來,我們就一起學習一下如何調優該參數吧!
一.創建交換分區
1>.什么是虛擬內存
如果物理內存不夠用時,可以將那些最近很少使用的頁面數據(Page)置換出去,即切換到硬盤上,但是要注意的是內存文件的格式和硬盤中文件的格式是不一樣的,所以這個分區必須格式化成跟內存兼容的模式不能轉換成文件的格式。以便把內存的page直接存入這個分區,方便內存直接調用。而這個頁面(page)數據對於32位的操作系統一個page大概是4K左右,對於64位操作系統這個page大小是可變的,4k-2M的大小都是比較常見的。事實上到底能使用多大的頁面(page)取決於CPU而不取決於內存喲!這就是虛擬內存的概念。在linux上我們稱之為交換分區。記住,虛擬內存必須是一個單獨的分區。
2>.虛擬內存能代替物理內存運行程序嗎?
答案是否定的,只是使用虛擬內存暫時保存數據,而不是代替物理內存運行程序。
3>.虛擬內存的作用
當運行某個大程序、大游戲,需要的內存超過空閑內存但小於物理內存總量時,會暫時把內存里這些數據放到磁盤上的虛擬內存里,空出物理內存運行游戲。等退出游戲后,又會把虛擬內存里的東西讀出來,放回物理內存。所以,虛擬內存,並不是用來虛擬物理內存的,而是暫存數據的。如果對內存的需求大於物理內存總量,那虛擬內存設多大都不管用。電腦內存太低,根本的方法還是增加物理內存,才能流暢。虛擬內存機制上就不管用,即使管用,比物理內存低100倍的速度,也管不上什么實際的作用。所以,虛擬內存大了是沒用的,反而白占用磁盤空間。
4>.交換分區常用的參數介紹
交換分區: mkswap 格式化為虛擬內存 -L label 指定卷標 swapon 啟動虛擬內存 -a 啟動所有的虛擬分區 -p:指定優先級 swapoff 關閉虛擬內存 更多參數請參考man mkswap
5>.案例實操-創建交換分區的步驟




6>.Linux清除swap方法
想要了解更多關於文件系統的知識,詳情請參考:https://www.cnblogs.com/yinzhengjie/p/6840563.html 。
7>.swap分區使用說明
我本人並不推薦大家使用swap分區,因為它會降低服務器性能。 早期由於工業原因內存相對較貴,因此很多軟件在設計之初都考慮盡可能的使用磁盤來代替內存,但是磁盤的I/O性能要和內存的I/O性能完全是天壤之別。比如在大數據領域Hadoop的一個MapReduce組件,該計算框架就盡可能使用磁盤,這是導致它計算速度很慢的一個原因,這也是為什么后來Spark和Flink崛起埋下伏筆。 因此,在生產環境中我們應該盡量禁用虛擬內存,比如阿里雲的服務器默認就是禁用虛擬內存的,我在生產環境中也是直接禁用虛擬內存的。但有的服務器內存相對較小,比如8G,擔心程序發生OOM.於是為了留一手才被迫使用虛擬內存。 如果非要使用虛擬內存建議參考以下幾點: (1)盡可能使用較塊的設備,比如固態硬盤; (2)如果使用磁盤建議使用扇區靠外的分區,這樣在查找數據時速度相對較塊; (3)生產環境中虛擬磁盤不建議超過8G;
二.swappiness參數在內存與交換分區之間優化作用
swappiness的值的大小對如何使用swap分區是有着很大的聯系的。先前,人們建議把vm.swapiness設置為0,它意味着“除非發生內存益處,否則不要進行內存交換”。直到Linux內核3.5-rcl版本發布,這個值的意義才發生了變化。這個變化被一直到其他的發行版本上,包括RedHat企業版內核2.6.32-303。在發生變化之后,0意味着“在任何情況下都不要發生交換”。所以現在建議把這個值設置為1。swappiness=100的時候表示積極的使用swap分區,並且把內存上的數據及時的搬運到swap空間里面。
1>.linux的swappiness參數的默認設置為60([root@yinzhengjie ~]# cat /proc/sys/vm/swappiness)
也就是說,你的內存在使用到100-60=40%的時候,就開始出現有交換分區的使用。大家知道,內存的速度會比磁盤快很多,這樣子會加大系統io,同時造的成大量頁的換進換出,嚴重影響系統的性能,所以我們在操作系統層面,要盡可能使用內存,對該參數進行調整。
2>.臨時調整swappiness的方法([root@yinzhengjie ~]# sysctl vm.swappiness=1)
3>.永久調整swappiness的方法([root@yinzhengjie ~]# echo "vm.swappiness=1" >> /etc/sysctl.conf)
在linux中,可以通過修改swappiness內核參數,降低系統對swap的使用,從而提高系統的性能。簡單地說這個參數定義了系統對swap的使用傾向,默認值為60,值越大表示越傾向於使用swap。不推薦設為0,因為這樣做會對3.5以上的kernel禁止對swap的使用,我推薦打擊設置一個較小對值,比如1,它只是最大限度地降低了使用swap的可能性。
4>.查看swappiness參數的當前設置
三.使用vm.dirty_ratio和vm.dirty_background_ratio更好的Linux磁盤緩存和性能
1>.臟頁對概念
臟頁是linux內核中的概念,因為硬盤的讀寫速度遠趕不上內存的速度,系統就把讀寫比較頻繁的數據事先放到內存中,以提高讀寫速度,這就叫高速緩存,linux是以頁作為高速緩存的單位,當進程修改了高速緩存里的數據時,該頁就被內核標記為臟頁,內核將會在合適的時間把臟頁的數據寫到磁盤中去,以保持高速緩存中的數據和磁盤中的數據是一致的。
2>.相關參數解釋
[root@yinzhengjie ~]# sysctl -a | grep dirty vm.dirty_background_bytes = 0 vm.dirty_background_ratio = 10 vm.dirty_bytes = 0 vm.dirty_expire_centisecs = 3000 vm.dirty_ratio = 30 vm.dirty_writeback_centisecs = 500 [root@yinzhengjie ~]# vm.dirty_background_ratio : 是內存可以填充“臟數據”的百分比。這些“臟數據”在稍后是會寫入磁盤的,pdflush/flush/kdmflush這些后台進程會稍后清理臟數據。舉一個例子,我有32G內存,那么有3.2G的內存可以待着內存里,超過3.2G的話就會有后來進程來清理它。 vm.dirty_ratio: 是絕對的臟數據限制,內存里的臟數據百分比不能超過這個值。如果臟數據超過這個數量,新的IO請求將會被阻擋,直到臟數據被寫進磁盤。這是造成IO卡頓的重要原因,但這也是保證內存中不會存在過量臟數據的保護機制。 vm.dirty_background_bytes和vm.dirty_bytes是 指定這些參數的另一種方法。如果設置_bytes版本,則_ratio版本將變為0,反之亦然。 vm.dirty_expire_centisecs : 指定臟數據能存活的時間。在這里它的值是30秒。當 pdflush/flush/kdmflush 進行起來時,它會檢查是否有數據超過這個時限,如果有則會把它異步地寫到磁盤中。畢竟數據在內存里待太久也會有丟失風險。 vm.dirty_writeback_centisecs: 指定多長時間 pdflush/flush/kdmflush 這些進程會起來一次。
以上說明飲用自:https://blog.csdn.net/csCrazybing/article/details/78127308
3>.調整內核對臟頁對處理方式可以讓我們從中獲益
臟頁會被沖刷到磁盤上,調整內核對臟頁的處理方式可以讓我們從中獲益。Kafka依賴I/O性能為生產者提供了快速的響應。這就是為什么日志片段一般要保存在快速磁盤上,不管是單個快速磁盤(如SSD)還是具有NVRAM緩存的磁盤子系統(如RAID)。這樣一來,在后台刷新進程將臟頁寫入磁盤之前,可以減少臟頁的數量,這個可以通過vm.dirty_backgroud_ratio設置為小於10的值來實現。改值指的是系統內存的百分比,大部分情況下設置為5就可以來。它不應該被設置為0,因為那樣會促使內核頻繁地刷新頁面,從而降低內核為底層設備的磁盤寫入提供緩沖的能力。
通過設置vm.dirty_ratio參數可以增加被內核進程刷新到磁盤之前的臟頁數量,可以將它設置為大於20的值(這也是系統內存的百分比),這個值可設置的范圍很廣,60~80是個比較合理的區間。不過調整這個參數會帶來一些風險,包括未刷新磁盤操作的數量和同步刷新引起的長時間I/O等待。如果篡改參數設置了較高的值,建議啟用Kafka的復制功能,避免因系統崩潰造成數據丟失。
為了給這些參數設置合適的值,最好是在Kafka集群運行期間檢查臟頁的數量,不管是在生產環境還是在模擬環境。可以在“/proc/vmstat”文件里查看當前臟頁的數量。
4>. 減少Cache(虛擬機的典型應用)
你可以針對要做的事情,來制定一個合適的值。 在一些情況下,我們有快速的磁盤子系統,它們有自帶的帶備用電池的NVRAM caches,這時候把數據放在操作系統層面就顯得相對高風險了。所以我們希望系統更及時地往磁盤寫數據。 可以在/etc/sysctl.conf中加入下面兩行,並執行"sysctl -p" vm.dirty_background_ratio = 5 vm.dirty_ratio = 10
這是虛擬機的典型應用。不建議將它設置成0,畢竟有點后台IO可以提升一些程序的性能。
5>.增加Cache(適合數據並不是很重要的場景,要求讀寫的效率想到高的場景)
在一些場景中增加Cache是有好處的。例如,數據不重要丟了也沒關系,而且有程序重復地讀寫一個文件。允許更多的cache,你可以更多地在內存上進行讀寫,提高速度。 vm.dirty_background_ratio = 50 vm.dirty_ratio = 80
有時候還會提高vm.dirty_expire_centisecs 這個參數的值,來允許臟數據更長時間地停留。
6>.增減兼有(如果你部署kafka集群的話,我推薦使用這個方案,在《Kafka 權威指南》一書中,也有相關的記載喲!)
有時候系統需要應對突如其來的高峰數據,它可能會拖慢磁盤。(比如說,每個小時開始時進行的批量操作等) 這個時候需要容許更多的臟數據存到內存,讓后台進程慢慢地通過異步方式將數據寫到磁盤當中。 vm.dirty_background_ratio = 5 vm.dirty_ratio = 80
這個時候,后台進行在臟數據達到5%時就開始異步清理,但在80%之前系統不會強制同步寫磁盤。這樣可以使IO變得更加平滑。
7>.案例實操-調整內核對臟頁的處理方式
[root@yinzhengjie ~]# sysctl -a | grep vm.dirty sysctl: reading key "net.ipv6.conf.all.stable_secret" sysctl: reading key "net.ipv6.conf.default.stable_secret" sysctl: reading key "net.ipv6.conf.ens160.stable_secret" sysctl: reading key "net.ipv6.conf.lo.stable_secret" vm.dirty_background_bytes = 0 vm.dirty_background_ratio = 10 vm.dirty_bytes = 0 vm.dirty_expire_centisecs = 3000 vm.dirty_ratio = 30 vm.dirty_writeback_centisecs = 500 [root@yinzhengjie ~]# [root@yinzhengjie ~]# cat /etc/sysctl.conf | grep -v ^# vm.swappiness=1 [root@yinzhengjie ~]# [root@yinzhengjie ~]# echo "vm.dirty_background_ratio=5" >> /etc/sysctl.conf [root@yinzhengjie ~]# [root@yinzhengjie ~]# echo "vm.dirty_ratio=80" >> /etc/sysctl.conf [root@yinzhengjie ~]# [root@yinzhengjie ~]# cat /etc/sysctl.conf | grep -v ^# vm.swappiness=1 vm.dirty_background_ratio=5 vm.dirty_ratio=80 [root@yinzhengjie ~]# [root@yinzhengjie ~]# sysctl -p vm.swappiness = 1 vm.dirty_background_ratio = 5 vm.dirty_ratio = 80 [root@yinzhengjie ~]# [root@yinzhengjie ~]# [root@yinzhengjie ~]# sysctl -a | grep vm.dirty sysctl: reading key "net.ipv6.conf.all.stable_secret" sysctl: reading key "net.ipv6.conf.default.stable_secret" sysctl: reading key "net.ipv6.conf.ens160.stable_secret" sysctl: reading key "net.ipv6.conf.lo.stable_secret" vm.dirty_background_bytes = 0 vm.dirty_background_ratio = 5 vm.dirty_bytes = 0 vm.dirty_expire_centisecs = 3000 vm.dirty_ratio = 80 vm.dirty_writeback_centisecs = 500 [root@yinzhengjie ~]# [root@yinzhengjie ~]# sysctl -q vm.dirty_background_ratio vm.dirty_background_ratio = 5 [root@yinzhengjie ~]# [root@yinzhengjie ~]# sysctl -q vm.dirty_ratio vm.dirty_ratio = 80 [root@yinzhengjie ~]# [root@yinzhengjie ~]#