Linux虛擬內存(swap)調優篇-“swappiness”,“vm.dirty_background_ratio”和“vm.dirty_ratio”


        Linux虛擬內存(swap)調優篇-“swappiness”,“vm.dirty_background_ratio”和“vm.dirty_ratio”

                                             作者:尹正傑

版權聲明:原創作品,謝絕轉載!否則將追究法律責任。

 

 

 

  我的kafka集群在上線一段時間后,發現內存使用達到峰值時系統開始使用swap。在swap的過程中系統性能會有所下降,表現為較大的服務延遲。對這種情況,可以通過調節swappiness內核參數降低系統對swap的使用,從而避免不必要的swap對性能造成的影響。接下來,我們就一起學習一下如何調優該參數吧!

 

一.創建交換分區

1>.什么是虛擬內存

  如果物理內存不夠用時,可以將那些最近很少使用的頁面數據(Page)置換出去,即切換到硬盤上,但是要注意的是內存文件的格式和硬盤中文件的格式是不一樣的,所以這個分區必須格式化成跟內存兼容的模式不能轉換成文件的格式。以便把內存的page直接存入這個分區,方便內存直接調用。而這個頁面(page)數據對於32位的操作系統一個page大概是4K左右,對於64位操作系統這個page大小是可變的,4k-2M的大小都是比較常見的。事實上到底能使用多大的頁面(page)取決於CPU而不取決於內存喲!這就是虛擬內存的概念。在linux上我們稱之為交換分區。記住,虛擬內存必須是一個單獨的分區。

2>.虛擬內存能代替物理內存運行程序嗎?

  答案是否定的,只是使用虛擬內存暫時保存數據,而不是代替物理內存運行程序。 

3>.虛擬內存的作用

  當運行某個大程序、大游戲,需要的內存超過空閑內存但小於物理內存總量時,會暫時把內存里這些數據放到磁盤上的虛擬內存里,空出物理內存運行游戲。等退出游戲后,又會把虛擬內存里的東西讀出來,放回物理內存。所以,虛擬內存,並不是用來虛擬物理內存的,而是暫存數據的。如果對內存的需求大於物理內存總量,那虛擬內存設多大都不管用。電腦內存太低,根本的方法還是增加物理內存,才能流暢。虛擬內存機制上就不管用,即使管用,比物理內存低100倍的速度,也管不上什么實際的作用。所以,虛擬內存大了是沒用的,反而白占用磁盤空間。

4>.交換分區常用的參數介紹

交換分區:
      mkswap 格式化為虛擬內存
      -L label 指定卷標
      swapon 啟動虛擬內存
      -a 啟動所有的虛擬分區
      -p:指定優先級
      swapoff 關閉虛擬內存
      更多參數請參考man mkswap

5>.案例實操-創建交換分區的步驟

[root@yinzhengjie ~]# fdisk /dev/sdb  #對第二塊硬盤進行分區調整

WARNING: DOS-compatible mode is deprecated. It's strongly recommended to
         switch off the mode (command 'c') and change display units to
         sectors (command 'u').

Command (m for help): p  #查看當前分區情況

Disk /dev/sdb: 10.7 GB, 10737418240 bytes
255 heads, 63 sectors/track, 1305 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x8614a108

   Device Boot      Start         End      Blocks   Id  System
/dev/sdb1               1         132     1060258+  83  Linux
/dev/sdb2             133         264     1060290   83  Linux
/dev/sdb3             265         526     2104515   83  Linux
/dev/sdb4             527        1305     6257317+   5  Extended
/dev/sdb5             527         919     3156741   83  Linux
/dev/sdb6             920        1181     2104483+  83  Linux    #我想講第6個分區弄成交換分區。

Command (m for help): t  #調整分區ID
Partition number (1-6): 6  #選擇分區編號為6
Hex code (type L to list codes): L   #查看分區類型所對應的ID號,我們發現“82”就是交換分區的編號

 0  Empty           24  NEC DOS         81  Minix / old Lin bf  Solaris
 1  FAT12           39  Plan 9          82  Linux swap / So c1  DRDOS/sec (FAT-
 2  XENIX root      3c  PartitionMagic  83  Linux           c4  DRDOS/sec (FAT-
 3  XENIX usr       40  Venix 80286     84  OS/2 hidden C:  c6  DRDOS/sec (FAT-
 4  FAT16 <32M      41  PPC PReP Boot   85  Linux extended  c7  Syrinx
 5  Extended        42  SFS             86  NTFS volume set da  Non-FS data
 6  FAT16           4d  QNX4.x          87  NTFS volume set db  CP/M / CTOS / .
 7  HPFS/NTFS       4e  QNX4.x 2nd part 88  Linux plaintext de  Dell Utility
 8  AIX             4f  QNX4.x 3rd part 8e  Linux LVM       df  BootIt
 9  AIX bootable    50  OnTrack DM      93  Amoeba          e1  DOS access
 a  OS/2 Boot Manag 51  OnTrack DM6 Aux 94  Amoeba BBT      e3  DOS R/O
 b  W95 FAT32       52  CP/M            9f  BSD/OS          e4  SpeedStor
 c  W95 FAT32 (LBA) 53  OnTrack DM6 Aux a0  IBM Thinkpad hi eb  BeOS fs
 e  W95 FAT16 (LBA) 54  OnTrackDM6      a5  FreeBSD         ee  GPT
 f  W95 Ext'd (LBA) 55  EZ-Drive        a6  OpenBSD         ef  EFI (FAT-12/16/
10  OPUS            56  Golden Bow      a7  NeXTSTEP        f0  Linux/PA-RISC b
11  Hidden FAT12    5c  Priam Edisk     a8  Darwin UFS      f1  SpeedStor
12  Compaq diagnost 61  SpeedStor       a9  NetBSD          f4  SpeedStor
14  Hidden FAT16 <3 63  GNU HURD or Sys ab  Darwin boot     f2  DOS secondary
16  Hidden FAT16    64  Novell Netware  af  HFS / HFS+      fb  VMware VMFS
17  Hidden HPFS/NTF 65  Novell Netware  b7  BSDI fs         fc  VMware VMKCORE
18  AST SmartSleep  70  DiskSecure Mult b8  BSDI swap       fd  Linux raid auto
1b  Hidden W95 FAT3 75  PC/IX           bb  Boot Wizard hid fe  LANstep
1c  Hidden W95 FAT3 80  Old Minix       be  Solaris boot    ff  BBT
1e  Hidden W95 FAT1
Hex code (type L to list codes): 82   #設置該分區的標號
Changed system type of partition 6 to 82 (Linux swap / Solaris)

Command (m for help): P   #查看當前分區情況

Disk /dev/sdb: 10.7 GB, 10737418240 bytes
255 heads, 63 sectors/track, 1305 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x8614a108

   Device Boot      Start         End      Blocks   Id  System
/dev/sdb1               1         132     1060258+  83  Linux
/dev/sdb2             133         264     1060290   83  Linux
/dev/sdb3             265         526     2104515   83  Linux
/dev/sdb4             527        1305     6257317+   5  Extended
/dev/sdb5             527         919     3156741   83  Linux
/dev/sdb6             920        1181     2104483+  82  Linux swap / Solaris

Command (m for help): W  #保存並退出
The partition table has been altered!

Calling ioctl() to re-read partition table.
Syncing disks.
[root@yinzhengjie ~]#
[root@yinzhengjie ~]# fdisk -l /dev/sdb  #查看分區信息

Disk /dev/sdb: 10.7 GB, 10737418240 bytes
255 heads, 63 sectors/track, 1305 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x8614a108

   Device Boot      Start         End      Blocks   Id  System
/dev/sdb1               1         132     1060258+  83  Linux
/dev/sdb2             133         264     1060290   83  Linux
/dev/sdb3             265         526     2104515   83  Linux
/dev/sdb4             527        1305     6257317+   5  Extended
/dev/sdb5             527         919     3156741   83  Linux
/dev/sdb6             920        1181     2104483+  82  Linux swap / Solaris
[root@yinzhengjie ~]# 
調整分區為交換分區(swap)格式
[root@yinzhengjie ~]# kpartx -af /dev/sdb
[root@yinzhengjie ~]# partx -a /dev/sdb   #重讀分區表信息,其實也可以不用敲擊這些命令的如果你是一塊新硬盤的話。
BLKPG: Device or resource busy
error adding partition 1
BLKPG: Device or resource busy
error adding partition 2
BLKPG: Device or resource busy
error adding partition 3
BLKPG: Device or resource busy
error adding partition 4
BLKPG: Device or resource busy
error adding partition 5
BLKPG: Device or resource busy
error adding partition 6
[root@yinzhengjie ~]# 
用partx 重讀一下分區表,避免系統未識別最新分區信息。
[root@yinzhengjie ~]# mkswap /dev/sdb6  #將分區格式化成swap格式
Setting up swapspace version 1, size = 2104476 KiB
no label, UUID=41687bb2-c775-489c-9b32-1e4be73c233b   #看見沒有,這里是“no label”,是因為我沒有定義卷標名。
[root@yinzhengjie ~]# 
[root@yinzhengjie ~]# mkswap -L myswap /dev/sdb6   #用-L參數定義一個卷標名。
Setting up swapspace version 1, size = 2104476 KiB
LABEL=myswap, UUID=0553b99a-ee75-4476-8eda-70c591206467  #看見沒,“LABEL=myswap”這就是我定義的卷標名稱。
[root@yinzhengjie ~]# 
用mkswap定義卷標名稱
[root@yinzhengjie ~]# cat /proc/meminfo | grep "^S"   #查看當前交換分區大小
SwapCached:            0 kB
SwapTotal:       2031612 kB  #目前交換分區大小為2G
SwapFree:        2031612 kB  #表示空閑交換分區大小
Shmem:              1444 kB
Slab:              75020 kB
SReclaimable:      15620 kB
SUnreclaim:        59400 kB
[root@yinzhengjie ~]#
[root@yinzhengjie ~]# swapon /dev/sdb6   #啟用我們已經格式化好的交換分區“/dev/sdb”
[root@yinzhengjie ~]# cat /proc/meminfo | grep "^S"   #再次查看當前交換分區大小
SwapCached:            0 kB
SwapTotal:       4136088 kB   #我們發現交換分區大小變大了2G
SwapFree:        4136088 kB
Shmem:              1444 kB
Slab:              75148 kB
SReclaimable:      15656 kB
SUnreclaim:        59492 kB
[root@yinzhengjie ~]#
[root@yinzhengjie ~]# swapoff /dev/sdb6  #關閉交換分區“/dev/sdb”
[root@yinzhengjie ~]#
[root@yinzhengjie ~]# cat /proc/meminfo | grep "^S"  #驗證是否關閉成功
SwapCached:            0 kB
SwapTotal:       2031612 kB   #發現的確是少了2G的空間
SwapFree:        2031612 kB
Shmem:              1444 kB
Slab:              75068 kB
SReclaimable:      15636 kB
SUnreclaim:        59432 kB
[root@yinzhengjie ~]#
swapon和swapoff的用法展示

6>.Linux清除swap方法 

  想要了解更多關於文件系統的知識,詳情請參考:https://www.cnblogs.com/yinzhengjie/p/6840563.html 

7>.swap分區使用說明

  我本人並不推薦大家使用swap分區,因為它會降低服務器性能。

  早期由於工業原因內存相對較貴,因此很多軟件在設計之初都考慮盡可能的使用磁盤來代替內存,但是磁盤的I/O性能要和內存的I/O性能完全是天壤之別。比如在大數據領域Hadoop的一個MapReduce組件,該計算框架就盡可能使用磁盤,這是導致它計算速度很慢的一個原因,這也是為什么后來Spark和Flink崛起埋下伏筆。

  因此,在生產環境中我們應該盡量禁用虛擬內存,比如阿里雲的服務器默認就是禁用虛擬內存的,我在生產環境中也是直接禁用虛擬內存的。但有的服務器內存相對較小,比如8G,擔心程序發生OOM.於是為了留一手才被迫使用虛擬內存。

  如果非要使用虛擬內存建議參考以下幾點:
    (1)盡可能使用較塊的設備,比如固態硬盤;
    (2)如果使用磁盤建議使用扇區靠外的分區,這樣在查找數據時速度相對較塊;
    (3)生產環境中虛擬磁盤不建議超過8G;

 

二.swappiness參數在內存與交換分區之間優化作用

  swappiness的值的大小對如何使用swap分區是有着很大的聯系的。先前,人們建議把vm.swapiness設置為0,它意味着“除非發生內存益處,否則不要進行內存交換”。直到Linux內核3.5-rcl版本發布,這個值的意義才發生了變化。這個變化被一直到其他的發行版本上,包括RedHat企業版內核2.6.32-303。在發生變化之后,0意味着“在任何情況下都不要發生交換”。所以現在建議把這個值設置為1。swappiness=100的時候表示積極的使用swap分區,並且把內存上的數據及時的搬運到swap空間里面。

1>.linux的swappiness參數的默認設置為60([root@yinzhengjie ~]# cat /proc/sys/vm/swappiness)

  也就是說,你的內存在使用到100-60=40%的時候,就開始出現有交換分區的使用。大家知道,內存的速度會比磁盤快很多,這樣子會加大系統io,同時造的成大量頁的換進換出,嚴重影響系統的性能,所以我們在操作系統層面,要盡可能使用內存,對該參數進行調整。

2>.臨時調整swappiness的方法([root@yinzhengjie ~]# sysctl vm.swappiness=1)

3>.永久調整swappiness的方法([root@yinzhengjie ~]#  echo "vm.swappiness=1" >> /etc/sysctl.conf)

  在linux中,可以通過修改swappiness內核參數,降低系統對swap的使用,從而提高系統的性能。簡單地說這個參數定義了系統對swap的使用傾向,默認值為60,值越大表示越傾向於使用swap。不推薦設為0,因為這樣做會對3.5以上的kernel禁止對swap的使用,我推薦打擊設置一個較小對值,比如1,它只是最大限度地降低了使用swap的可能性。

4>.查看swappiness參數的當前設置

 

三.使用vm.dirty_ratio和vm.dirty_background_ratio更好的Linux磁盤緩存和性能 

1>.臟頁對概念

  臟頁是linux內核中的概念,因為硬盤的讀寫速度遠趕不上內存的速度,系統就把讀寫比較頻繁的數據事先放到內存中,以提高讀寫速度,這就叫高速緩存,linux是以頁作為高速緩存的單位,當進程修改了高速緩存里的數據時,該頁就被內核標記為臟頁,內核將會在合適的時間把臟頁的數據寫到磁盤中去,以保持高速緩存中的數據和磁盤中的數據是一致的。

2>.相關參數解釋

[root@yinzhengjie ~]# sysctl -a | grep dirty
vm.dirty_background_bytes = 0
vm.dirty_background_ratio = 10
vm.dirty_bytes = 0
vm.dirty_expire_centisecs = 3000
vm.dirty_ratio = 30
vm.dirty_writeback_centisecs = 500
[root@yinzhengjie ~]# 

vm.dirty_background_ratio :
    是內存可以填充“臟數據”的百分比。這些“臟數據”在稍后是會寫入磁盤的,pdflush/flush/kdmflush這些后台進程會稍后清理臟數據。舉一個例子,我有32G內存,那么有3.2G的內存可以待着內存里,超過3.2G的話就會有后來進程來清理它。

vm.dirty_ratio:
    是絕對的臟數據限制,內存里的臟數據百分比不能超過這個值。如果臟數據超過這個數量,新的IO請求將會被阻擋,直到臟數據被寫進磁盤。這是造成IO卡頓的重要原因,但這也是保證內存中不會存在過量臟數據的保護機制。

vm.dirty_background_bytes和vm.dirty_bytes是
    指定這些參數的另一種方法。如果設置_bytes版本,則_ratio版本將變為0,反之亦然。

vm.dirty_expire_centisecs :
    指定臟數據能存活的時間。在這里它的值是30秒。當 pdflush/flush/kdmflush 進行起來時,它會檢查是否有數據超過這個時限,如果有則會把它異步地寫到磁盤中。畢竟數據在內存里待太久也會有丟失風險。

vm.dirty_writeback_centisecs:
    指定多長時間 pdflush/flush/kdmflush 這些進程會起來一次。

  以上說明飲用自:https://blog.csdn.net/csCrazybing/article/details/78127308

3>.調整內核對臟頁對處理方式可以讓我們從中獲益

   臟頁會被沖刷到磁盤上,調整內核對臟頁的處理方式可以讓我們從中獲益。Kafka依賴I/O性能為生產者提供了快速的響應。這就是為什么日志片段一般要保存在快速磁盤上,不管是單個快速磁盤(如SSD)還是具有NVRAM緩存的磁盤子系統(如RAID)。這樣一來,在后台刷新進程將臟頁寫入磁盤之前,可以減少臟頁的數量,這個可以通過vm.dirty_backgroud_ratio設置為小於10的值來實現。改值指的是系統內存的百分比,大部分情況下設置為5就可以來。它不應該被設置為0,因為那樣會促使內核頻繁地刷新頁面,從而降低內核為底層設備的磁盤寫入提供緩沖的能力。

  通過設置vm.dirty_ratio參數可以增加被內核進程刷新到磁盤之前的臟頁數量,可以將它設置為大於20的值(這也是系統內存的百分比),這個值可設置的范圍很廣,60~80是個比較合理的區間。不過調整這個參數會帶來一些風險,包括未刷新磁盤操作的數量和同步刷新引起的長時間I/O等待。如果篡改參數設置了較高的值,建議啟用Kafka的復制功能,避免因系統崩潰造成數據丟失。

  為了給這些參數設置合適的值,最好是在Kafka集群運行期間檢查臟頁的數量,不管是在生產環境還是在模擬環境。可以在“/proc/vmstat”文件里查看當前臟頁的數量。

4>. 減少Cache(虛擬機的典型應用)

你可以針對要做的事情,來制定一個合適的值。
在一些情況下,我們有快速的磁盤子系統,它們有自帶的帶備用電池的NVRAM caches,這時候把數據放在操作系統層面就顯得相對高風險了。所以我們希望系統更及時地往磁盤寫數據。
可以在/etc/sysctl.conf中加入下面兩行,並執行"sysctl -p"

vm.dirty_background_ratio = 5
vm.dirty_ratio = 10

這是虛擬機的典型應用。不建議將它設置成0,畢竟有點后台IO可以提升一些程序的性能。

5>.增加Cache(適合數據並不是很重要的場景,要求讀寫的效率想到高的場景)

在一些場景中增加Cache是有好處的。例如,數據不重要丟了也沒關系,而且有程序重復地讀寫一個文件。允許更多的cache,你可以更多地在內存上進行讀寫,提高速度。

vm.dirty_background_ratio = 50
vm.dirty_ratio = 80

有時候還會提高vm.dirty_expire_centisecs 這個參數的值,來允許臟數據更長時間地停留。 

6>.增減兼有(如果你部署kafka集群的話,我推薦使用這個方案,在《Kafka 權威指南》一書中,也有相關的記載喲!)

有時候系統需要應對突如其來的高峰數據,它可能會拖慢磁盤。(比如說,每個小時開始時進行的批量操作等)
這個時候需要容許更多的臟數據存到內存,讓后台進程慢慢地通過異步方式將數據寫到磁盤當中。

vm.dirty_background_ratio = 5
vm.dirty_ratio = 80

這個時候,后台進行在臟數據達到5%時就開始異步清理,但在80%之前系統不會強制同步寫磁盤。這樣可以使IO變得更加平滑。

7>.案例實操-調整內核對臟頁的處理方式

[root@yinzhengjie ~]# sysctl -a | grep vm.dirty          
sysctl: reading key "net.ipv6.conf.all.stable_secret"
sysctl: reading key "net.ipv6.conf.default.stable_secret"
sysctl: reading key "net.ipv6.conf.ens160.stable_secret"
sysctl: reading key "net.ipv6.conf.lo.stable_secret"
vm.dirty_background_bytes = 0
vm.dirty_background_ratio = 10
vm.dirty_bytes = 0
vm.dirty_expire_centisecs = 3000
vm.dirty_ratio = 30
vm.dirty_writeback_centisecs = 500
[root@yinzhengjie ~]# 
[root@yinzhengjie ~]# cat /etc/sysctl.conf  | grep -v ^# 
vm.swappiness=1
[root@yinzhengjie ~]# 
[root@yinzhengjie ~]# echo "vm.dirty_background_ratio=5" >> /etc/sysctl.conf
[root@yinzhengjie ~]# 
[root@yinzhengjie ~]# echo "vm.dirty_ratio=80" >> /etc/sysctl.conf
[root@yinzhengjie ~]# 
[root@yinzhengjie ~]# cat /etc/sysctl.conf  | grep -v ^#                    
vm.swappiness=1
vm.dirty_background_ratio=5
vm.dirty_ratio=80
[root@yinzhengjie ~]# 
[root@yinzhengjie ~]# sysctl -p
vm.swappiness = 1
vm.dirty_background_ratio = 5
vm.dirty_ratio = 80
[root@yinzhengjie ~]# 
[root@yinzhengjie ~]# 
[root@yinzhengjie ~]# sysctl -a | grep vm.dirty                             
sysctl: reading key "net.ipv6.conf.all.stable_secret"
sysctl: reading key "net.ipv6.conf.default.stable_secret"
sysctl: reading key "net.ipv6.conf.ens160.stable_secret"
sysctl: reading key "net.ipv6.conf.lo.stable_secret"
vm.dirty_background_bytes = 0
vm.dirty_background_ratio = 5
vm.dirty_bytes = 0
vm.dirty_expire_centisecs = 3000
vm.dirty_ratio = 80
vm.dirty_writeback_centisecs = 500
[root@yinzhengjie ~]# 
[root@yinzhengjie ~]# sysctl -q vm.dirty_background_ratio                   
vm.dirty_background_ratio = 5
[root@yinzhengjie ~]# 
[root@yinzhengjie ~]# sysctl -q vm.dirty_ratio
vm.dirty_ratio = 80
[root@yinzhengjie ~]# 
[root@yinzhengjie ~]# 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM