避免物理內存碎片化


避免物理內存碎片化

 

以前的項目碰到了buddy內存分配失敗的情況,雖然當前可用內存和可回收內存還有很多,但是仍然無法滿足分配,經過分析是物理內存碎片化導致申請連續物理內存失敗。

 當linux系統持續運行很長時間沒有重新啟動后,系統內持續的進行頁面的分配和釋放,系統空閑物理內存被使用的物理內存分割開,大塊的連續物理內存為0,空閑頁面只能滿足小數量頁面的分配,此時系統可能還有很多空閑頁面,但是buddy系統無法滿足連續page分配申請。

一般情況下,出錯信息如下:

 

<4>[ 3308.564000] lowmem_reserve[]: 0 0 0

<4>[ 3308.564000] Normal: 743*4kB 3*8kB 0*16kB 0*32kB 0*64kB 0*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 2996kB

 

Linux buddyy系統是linux kernel比較穩定的一個模塊,但是並不是說它沒有缺陷,Linux內存管理系統自誕生之日,就一直存在物理內存碎片化的問題:在系統啟動並且運行很長一段時間后,極端情況下,盡管總的可用物理page數目很高,但是空閑的連續物理內存可能並不大,這就造成申請大塊連續物理內存分配時失敗。尤其是當分配操作帶有ATOMAIC標記時,系統連回收內存的機會都沒有。

 

首先要明確以下一點:

物理內存碎片化是無法避免的,所以相關的bug在理論上是無法徹底解決的,只能進行規避,或者減少出錯的幾率,本文也是對規避和減少出錯幾率的方法做個總結。

 

避免碎片

很長時間以來,物理內存的碎片化一直是Linux操作系統的弱點之一,盡管已經有人提出了很多解決方法,但是沒有哪個方法能夠徹底的解決,memory buddy分配就是解決方法之一。 我們知道磁盤文件也有碎片化問題,但是磁盤文件的碎片化只會減慢系統的讀寫速度,並不會導致功能性錯誤,而且我們還可以在不影響磁盤功能的前提的下,進行磁盤碎片整理。而物理內存碎片則截然不同,物理內存和操作系統結合的太過於緊密,以至於我們很難在運行時,進行物理內存的搬移(這一點上,磁盤碎片要容易的多;實際上mel gorman已經提交了內存緊縮的patch,只是還沒有被主線內核接收)。 因此解決的方向主要放在預防碎片上。

在2.6.24內核開發期間,防止碎片的內核功能加入了主線內核。在了解反碎片的基本原理前,先對內存頁面做個歸類:

1. 不可移動頁面 unmoveable:在內存中位置必須固定,無法移動到其他地方,核心內核分配的大部分頁面都屬於這一類。

2.  可回收頁面 reclaimable:不能直接移動,但是可以回收,因為還可以從某些源重建頁面,比如映射文件的數據屬於這種類別,kswapd會按照一定的規則,周期性的回收這類頁面。

3. 可移動頁面 movable:可以隨意的移動。屬於用戶空間應用程序的頁屬於此類頁面,它們是通過頁表映射的,因此我們只需要更新頁表項,並把數據復制到新位置就可以了,當然要注意,一個頁面可能被多個進程共享,對應着多個頁表項。

 

防止碎片的方法就是把這三類page放在不同的鏈表上,避免不同類型頁面相互干擾。考慮這樣的情形,一個不可移動的頁面位於可移動頁面中間,那么我們移動或者回收這些頁面后,這個不可移動的頁面阻礙着我們獲得更大的連續物理空閑空間。

針對頁面的分類,我們引入了movable zone,事實上movable zone是虛擬zone,是在運行時逐漸建立的。當然內核的確可以建立真實的內存zone。

我們知道大部分buddy分配失敗,發生在申請unremovable頁面時。這樣分類還有一個潛在的好處,為unremovable保留的頁面,被reclaimable和movable分配的優先級低(參見fallbacks),因此客觀上減少了buddy分配unremovable頁面的幾率。

 

數據結構

kernel引入了一些宏來表示不同的遷移類型:

 

<mmzone.h>
#define MIGRATE_UNMOVABLE 0
#define MIGRATE_RECLAIMABLE 0
#define MIGRATE_MOVALBE 0
#define MIGRATE_RESERVE 0
#define MIGRATE_ISOLATE 0
#define MIGRATE_TYPES 0

類型MIGRATE_UNMOVABLE, MIGRATE_RECLAIMABLE和MIGRATE_MOVALBE就是我們上面介紹的三種頁面類型。如果向特定類型頁面分配請求失敗,緊急情況下可以從MIGRATE_RESERVE分配內存。

 

當制定類型的空閑列表無法滿足分配時,可以按照一定規則從其他類型空閑鏈表分配,這個次序用下面數據描述

 

static int fallbacks[MIRGRATE_TYPES][MIGRATE_TYPES-1] = {
    [MIGRATE_UNMOVABLE] = {MIGRATE_RECLAIMABLE, MIGRATE_MOVABLE, MIGRATE_RESERVE},
    [MIGRATE_RECLAIMABLE] = {MIRGRATE_UNMOVABLE, MIGRATE_MOVABLE, MIGRATE_RESERVE},
    [MIGRATE_MOVABLE] = {MIRGRATE_RECLAIMABLE, MIGRATE_UNMOVABLE, MIGRATE_RESERVE},
    [MIGRATE_RESERVE] = {MIGRATE_RESERVE, MIGRATE_RESERVE, MIGRATE_RESERVE},
} 

 

和zone_list功能類似,當內核想要分配不可移動頁面,如果該鏈表為空,則優先選擇從RECLAIMABLE鏈表分配,然后是MOVABLE,最后使用RESERVE鏈表。

實際上,這種方法並不能解決我們的問題,因為用戶空間頁面映射以及內核申請RECLAIMABLE頁面的需求可能是無止境的,當MOVABLE和RECLAIMABLE鏈表無法滿足分配時,根據fallbacks會占用MIGRATE_UNMOVABLE鏈表,這就導致后面UNMOVABLE分配可能失敗。

So,我們可以修改fallbacks如下

 

static int fallbacks[MIRGRATE_TYPES][MIGRATE_TYPES-1] = {
    [MIGRATE_UNMOVABLE] = {MIGRATE_RECLAIMABLE, MIGRATE_MOVABLE, MIGRATE_RESERVE},
    [MIGRATE_RECLAIMABLE] = {MIRGRATE_MOVABLE, MIGRATE_MOVABLE, MIGRATE_RESERVE},
    [MIGRATE_MOVABLE] = {MIRGRATE_RECLAIMABLE, MIGRATE_MOVABLE, MIGRATE_RESERVE},
    [MIGRATE_RESERVE] = {MIGRATE_RESERVE, MIGRATE_RESERVE, MIGRATE_RESERVE},
} 

 

禁止MOVABLE或者RECLAIMABLE失敗后嘗試從UNMOVABLE鏈表分配頁面,這樣可以保持UNMOVABLE不受非關鍵頁面分配的干擾。

注意:即便可移動分組特性已經編譯到內核中,但是只有當系統中有足夠內存可以分配給多個類型的鏈表時,該特性才有意義。這個足夠的含義由pageblock_order和pageblock_nr_pages來定義。當可用內存過少的時候,引入頁面遷移沒有任何好處,相反會增加系統負擔。系統會在 build_all_zonelist中進行檢查,如果沒有足夠內存,則關閉該特性。

在內存子系統初始化期間,memmap_init_zone負責處理內存域的page實列,所有的頁最初都標記為可移動的!

 

mm/page_alloc.c
void __meminit memmap_init_zone(unsigned long size, int nid, unsigned long zone, unsigned long start_pfn, enum memmap_context context)
{
    strcut page *page;
    unsigned long end_pfn = start_pfn+size;
    unsigned long pfn;

    for (pfn = start_pfn; pfn < end_pfn; pfn++) {
...
        if ((pfn & (pageblock_nr_pages - 1)))
            set_pageblock_migratetype(page, MIGRATE_MOVABLE);
...
}

 

在進行內存分配時,如果沒有預定遷移類型的內存區。那么會嘗試從MOVABLE鏈表上獲取盡可能大的內存區,並轉換到相應的列表,由於獲取的內存區長度是最大的,因此不會向可移動內存區引入碎片。這種做法使得不同類型的頁面從不同的頁面范圍內分配,從而使得不同類型的內存分配比避免干擾。

內存分配器如何知道分配申請是哪種遷移類型呢,這需要所有內存申請提供相應的分配標記,如果需要分配可移動的內存頁,那么使用__GFP_MOVABLE,如果申請可回收的則使用__GFP_RECLAIMABLE。如果這些標記都沒有設置,則認為是UNMOVABLE的。

 

Virtual Movable Zone

這種方法是提前分配一個稱為ZONE_MOVABLE的內存zone,ZONE_MOVABLE內核特性必須由管理員顯示激活。其基本思想是:把物理內存划分為兩個內存zone,一個用於可移動分配,另外一個用於不可移動分配。這樣不可移動內存域不會干擾可移動內存域引入碎片,而可移動內存域因此很容易滿足分配。

當然,如何划分這兩個內存域,對系統管理員是個挑戰。

和系統中的其他內存域不同,ZONE_MOVABLE是一個虛擬的內存域,它的內存取自高端內存域或者普通內存域。ZONE_MOVABLE內存有兩種提取方式:

1. 用於可移動分配的內存平均分布到所有的內存節點上。

2. 只使用來自最高內存域的內存,在內存較多的32位系統上,這通常是ZONE_HIGHMEM。注意這也和ZONE_MOVABLE的使用者吻合,因為只有用戶頁面映射才算是MOVA LE的內存頁,而用戶頁面映射優先使用的也是HIGHMEM。

因此對於ZONE_MOVABLE我們可以使用如下策略:

1. 使能高端內存

2. ZONE_MOVABLE從HIGHMEM提取內存

3. 系統管理員估算ZONE_MOVABLE的大小,較小的ZONE_MOVABLE使得非movable ZONE有更多地物理內存。

ZONE_MOVABLE 使用者

因為ZONE_MOVABLE的使用者是帶有GFP_MOVABLE和GFP_HIGHMEM標記的內核分配(主要是應用程序的頁面映射)。

 

void *vmalloc(unsigned long size)
{
    return __vmalloc_node_flags(size, -1, GFP_KERNEL | __GFP_HIGHMEM);
}

從vmalloc的實現來看,vmalloc並沒有調用GFP_MOVABLE和GFP_RECLAIMABLE標記,因此,vmalloc並不會從ZONE_MOVABLE分配內存

 

結論

 

ZONE_MOVABLE和頁面分類方法相比,好處是很明顯的:固定UNMOVABLE zone的大小(頁面分類鏈表是動態生成的),UNMOVABLE zone供內核關鍵分配函數使用。系統頻繁申請的MOVABLE分配,不會導致unmovable zone的碎片化。但是缺點仍然很明顯,即RECLAIMABLE分配還是使用unmovable zone,頻繁的分配回收仍然使得unmovable zone碎片化。

所以看起來,ZONE_MOVABLE方法只是緩解了物理內存碎片化,但是並沒有完全解決。

 

對於某些特定的驅動,我們可以通過以下方式減少分配失敗的可能性。

1. 減少分配所需的連續頁面數目。

2. 如果內存申請操作對系統來說是關鍵操作(比如framebuffer,網絡傳輸buffer),不允許分配失敗,但是又無法做到1,那么可以考慮使用預分配的策略。

 

對於某些特定的項目,可以通過如下方法減少DMA內存分配失敗的可能性。

1. 禁止帶有GFP_HIGHMEM標記的內存分配在HIGHMEM zone 分配失敗后,進入DMA zone尋找合適的頁面。

2. 禁止對Normal zone分配失敗,進入DMA zone尋找合適頁面

HIGHMEM的使用者主要是應用程序的頁面映射和內核vmalloc分配,這兩種操作都不需要連續物理頁面,HIGHMEM zone並不關心物理內存碎片化,而且這兩種操作映射的頁面本身就是reclaimable,實在沒有必要再去占用Normal和DMA zone的物理頁面。

尤其在Android系統上,Android退出應用操作只是把應用退到后台,並沒有釋放內存,當運行時間較長,啟動多個應用后,這些應用占滿HIGHMEM zone后,就會去占用Normal zone和Highmem zone的內存。在這里我們切斷zone_list,就是防止貪得無厭的Android應用和Vmalloc占據Normal和DMA zone。

此外,linux kernel本身對待cache(此cache不是物理cache,而是指buffer cache, inode cache, dentry cache)也是有求必應的,Normal zone分配完,就使用DMA zone,直到把DMA zone占完為止。因此我們實在是有必要禁止cache這種貪得無厭的東西進入DMA zone。

這種截斷的做法雖然背離了linux盡量使用系統內存的做法,但是卻保證了三個內存區 DMA zone, Normal zone, Highmem zone互不干擾。

 

lowmem_reserve

 

上面提到了切斷HIGHMEM zone分配失敗回退到Normal zone和DMA zone,以及切斷Normal zone失敗回退到DMA zone。具體做法是配置lowmem_reserve

通過配置lowmem_reserve的為1,使得本內存zone針對高端分配保留盡可能多的空間,來減少fallback分配,這里用減少而不是禁止是因為lowmem_reserve算法在某些內存配置下,無法完全禁止fallback。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM