Linux的虛擬內存管理有幾個關鍵概念:
Linux 虛擬地址空間如何分布?malloc和free是如何分配和釋放內存?如何查看堆內內存的碎片情況?既然堆內內存brk和sbrk不能直接釋放,為什么不全部使用 mmap 來分配,munmap直接釋放呢 ?
Linux 的虛擬內存管理有幾個關鍵概念:
1、每個進程都有獨立的虛擬地址空間,進程訪問的虛擬地址並不是真正的物理地址;
2、虛擬地址可通過每個進程上的頁表(在每個進程的內核虛擬地址空間)與物理地址進行映射,獲得真正物理地址;
3、如果虛擬地址對應物理地址不在物理內存中,則產生缺頁中斷,真正分配物理地址,同時更新進程的頁表;如果此時物理內存已耗盡,則根據內存替換算法淘汰部分頁面至物理磁盤中。
一、Linux 虛擬地址空間如何分布?
Linux 使用虛擬地址空間,大大增加了進程的尋址空間,由低地址到高地址分別為:
1、只讀段:該部分空間只能讀,不可寫;(包括:代碼段、rodata 段(C常量字符串和#define定義的常量) )
2、數據段:保存全局變量、靜態變量的空間;
3、堆 :就是平時所說的動態內存, malloc/new 大部分都來源於此。其中堆頂的位置可通過函數 brk 和 sbrk 進行動態調整。
4、文件映射區域:如動態庫、共享內存等映射物理空間的內存,一般是 mmap 函數所分配的虛擬地址空間。
5、棧:用於維護函數調用的上下文空間,一般為 8M ,可通過 ulimit –s 查看。
6、內核虛擬空間:用戶代碼不可見的內存區域,由內核管理(頁表就存放在內核虛擬空間)。
下圖是 32 位系統典型的虛擬地址空間分布(來自《深入理解計算機系統》)。
32 位系統有4G 的地址空間::
其中 0x08048000~0xbfffffff 是用戶空間,0xc0000000~0xffffffff 是內核空間,包括內核代碼和數據、與進程相關的數據結構(如頁表、內核棧)等。另外,%esp 執行棧頂,往低地址方向變化;brk/sbrk 函數控制堆頂_edata往高地址方向變化。
64位系統結果怎樣呢? 64 位系統是否擁有 2^64 的地址空間嗎?
事實上, 64 位系統的虛擬地址空間划分發生了改變:
1、地址空間大小不是2^32,也不是2^64,而一般是2^48。
因為並不需要 2^64 這么大的尋址空間,過大空間只會導致資源的浪費。64位Linux一般使用48位來表示虛擬地址空間,40位表示物理地址,
這可通過#cat /proc/cpuinfo 來查看:
2、其中,0x0000000000000000~0x00007fffffffffff 表示用戶空間, 0xFFFF800000000000~ 0xFFFFFFFFFFFFFFFF 表示內核空間,共提供 256TB(2^48) 的尋址空間。
這兩個區間的特點是,第 47 位與 48~63 位相同,若這些位為 0 表示用戶空間,否則表示內核空間。
3、用戶空間由低地址到高地址仍然是只讀段、數據段、堆、文件映射區域和棧;
二、malloc和free是如何分配和釋放內存?
如何查看進程發生缺頁中斷的次數?
用# ps -o majflt,minflt -C program 命令查看
majflt代表major fault,中文名叫大錯誤,minflt代表minor fault,中文名叫小錯誤。
這兩個數值表示一個進程自啟動以來所發生的缺頁中斷的次數。
可以用命令ps -o majflt minflt -C program來查看進程的majflt, minflt的值,這兩個值都是累加值,從進程啟動開始累加。在對高性能要求的程序做壓力測試的時候,我們可以多關注一下這兩個值。
如果一個進程使用了mmap將很大的數據文件映射到進程的虛擬地址空間,我們需要重點關注majflt的值,因為相比minflt,majflt對於性能的損害是致命的,隨機讀一次磁盤的耗時數量級在幾個毫秒,而minflt只有在大量的時候才會對性能產生影響。
發成缺頁中斷后,執行了那些操作?
當一個進程發生缺頁中斷的時候,進程會陷入內核態,執行以下操作:
1、檢查要訪問的虛擬地址是否合法
2、查找/分配一個物理頁
3、填充物理頁內容(讀取磁盤,或者直接置0,或者啥也不干)
4、建立映射關系(虛擬地址到物理地址)
重新執行發生缺頁中斷的那條指令
如果第3步,需要讀取磁盤,那么這次缺頁中斷就是majflt,否則就是minflt。
內存分配的原理
從操作系統角度來看,進程分配內存有兩種方式,分別由兩個系統調用完成:brk和mmap(不考慮共享內存)。
1、brk是將數據段(.data)的最高地址指針_edata往高地址推;
2、mmap是在進程的虛擬地址空間中(堆和棧中間,稱為文件映射區域的地方)找一塊空閑的虛擬內存。
這兩種方式分配的都是虛擬內存,沒有分配物理內存。在第一次訪問已分配的虛擬地址空間的時候,發生缺頁中斷,操作系統負責分配物理內存,然后建立虛擬內存和物理內存之間的映射關系。
在標准C庫中,提供了malloc/free函數分配釋放內存,這兩個函數底層是由brk,mmap,munmap這些系統調用實現的。
下面以一個例子來說明內存分配的原理:
情況一、malloc小於128k的內存,使用brk分配內存,將_edata往高地址推(只分配虛擬空間,不對應物理內存(因此沒有初始化),第一次讀/寫數據時,引起內核缺頁中斷,內核才分配對應的物理內存,然后虛擬地址空間建立映射關系),如下圖:
1、進程啟動的時候,其(虛擬)內存空間的初始布局如圖1所示。
其中,mmap內存映射文件是在堆和棧的中間(例如libc-2.2.93.so,其它數據文件等),為了簡單起見,省略了內存映射文件。
_edata指針(glibc里面定義)指向數據段的最高地址。
2、進程調用A=malloc(30K)以后,內存空間如圖2:
malloc函數會調用brk系統調用,將_edata指針往高地址推30K,就完成虛擬內存分配。
你可能會問:只要把_edata+30K就完成內存分配了?
事實是這樣的,_edata+30K只是完成虛擬地址的分配,A這塊內存現在還是沒有物理頁與之對應的,等到進程第一次讀寫A這塊內存的時候,發生缺頁中斷,這個時候,內核才分配A這塊內存對應的物理頁。也就是說,如果用malloc分配了A這塊內容,然后從來不訪問它,那么,A對應的物理頁是不會被分配的。
3、進程調用B=malloc(40K)以后,內存空間如圖3。
情況二、malloc大於128k的內存,使用mmap分配內存,在堆和棧之間找一塊空閑內存分配(對應獨立內存,而且初始化為0),如下圖:
4、進程調用C=malloc(200K)以后,內存空間如圖4:
默認情況下,malloc函數分配內存,如果請求內存大於128K(可由M_MMAP_THRESHOLD選項調節),那就不是去推_edata指針了,而是利用mmap系統調用,從堆和棧的中間分配一塊虛擬內存。
這樣子做主要是因為::
brk分配的內存需要等到高地址內存釋放以后才能釋放(例如,在B釋放之前,A是不可能釋放的,這就是內存碎片產生的原因,什么時候緊縮看下面),而mmap分配的內存可以單獨釋放。
當然,還有其它的好處,也有壞處,再具體下去,有興趣的同學可以去看glibc里面malloc的代碼了。
5、進程調用D=malloc(100K)以后,內存空間如圖5;
6、進程調用free(C)以后,C對應的虛擬內存和物理內存一起釋放。
7、進程調用free(B)以后,如圖7所示:
B對應的虛擬內存和物理內存都沒有釋放,因為只有一個_edata指針,如果往回推,那么D這塊內存怎么辦呢?
當然,B這塊內存,是可以重用的,如果這個時候再來一個40K的請求,那么malloc很可能就把B這塊內存返回回去了。
8、進程調用free(D)以后,如圖8所示:
B和D連接起來,變成一塊140K的空閑內存。
9、默認情況下:
當最高地址空間的空閑內存超過128K(可由M_TRIM_THRESHOLD選項調節)時,執行內存緊縮操作(trim)。在上一個步驟free的時候,發現最高地址空閑內存超過128K,於是內存緊縮,變成圖9所示。
真相大白
說完內存分配的原理,那么被測模塊在內核態cpu消耗高的原因就很清楚了:每次請求來都malloc一塊2M的內存,默認情況下,malloc調用 mmap分配內存,請求結束的時候,調用munmap釋放內存。假設每個請求需要6個物理頁,那么每個請求就會產生6個缺頁中斷,在2000的壓力下,每 秒就產生了10000多次缺頁中斷,這些缺頁中斷不需要讀取磁盤解決,所以叫做minflt;缺頁中斷在內核態執行,因此進程的內核態cpu消耗很大。缺 頁中斷分散在整個請求的處理過程中,所以表現為分配語句耗時(10us)相對於整條請求的處理時間(1000us)比重很小。
解決辦法
將動態內存改為靜態分配,或者啟動的時候,用malloc為每個線程分配,然后保存在threaddata里面。但是,由於這個模塊的特殊性,靜態分配,或者啟動時候分配都不可行。另外,Linux下默認棧的大小限制是10M,如果在棧上分配幾M的內存,有風險。
禁止malloc調用mmap分配內存,禁止內存緊縮。
在進程啟動時候,加入以下兩行代碼:
mallopt(M_MMAP_MAX, 0); // 禁止malloc調用mmap分配內存
mallopt(M_TRIM_THRESHOLD, -1); // 禁止內存緊縮
效果:加入這兩行代碼以后,用ps命令觀察,壓力穩定以后,majlt和minflt都為0。進程的系統態cpu從20降到10。
三、如何查看堆內內存的碎片情況 ?
glibc 提供了以下結構和接口來查看堆內內存和 mmap 的使用情況。
struct mallinfo {
int arena; /* non-mmapped space allocated from system */
int ordblks; /* number of free chunks */
int smblks; /* number of fastbin blocks */
int hblks; /* number of mmapped regions */
int hblkhd; /* space in mmapped regions */
int usmblks; /* maximum total allocated space */
int fsmblks; /* space available in freed fastbin blocks */
int uordblks; /* total allocated space */
int fordblks; /* total free space */
int keepcost; /* top-most, releasable (via malloc_trim) space */
};
/*返回heap(main_arena)的內存使用情況,以 mallinfo 結構返回 */
struct mallinfo mallinfo();
/* 將heap和mmap的使用情況輸出到stderr*/
void malloc_stats();
可通過以下例子來驗證mallinfo和malloc_stats輸出結果。
#include <stdlib.h>
#include <stdio.h>
#include <string.h>
#include <unistd.h>
#include <sys/mman.h>
#include <malloc.h>
size_t heap_malloc_total, heap_free_total,mmap_total, mmap_count;
void print_info()
{
struct mallinfo mi = mallinfo();
printf("count by itself:\n");
printf("\theap_malloc_total=%lu heap_free_total=%lu heap_in_use=%lu\n\tmmap_total=%lu mmap_count=%lu\n",
heap_malloc_total*1024, heap_free_total*1024, heap_malloc_total*1024-heap_free_total*1024,
mmap_total*1024, mmap_count);
printf("count by mallinfo:\n");
printf("\theap_malloc_total=%lu heap_free_total=%lu heap_in_use=%lu\n\tmmap_total=%lu mmap_count=%lu\n",
mi.arena, mi.fordblks, mi.uordblks,
mi.hblkhd, mi.hblks);
printf("from malloc_stats:\n");
malloc_stats();
}
#define ARRAY_SIZE 200
int main(int argc, char** argv)
{
char** ptr_arr[ARRAY_SIZE];
int i;
for( i = 0; i < ARRAY_SIZE; i++)
{
ptr_arr[i] = malloc(i * 1024);
if ( i < 128) //glibc默認128k以上使用mmap
{
heap_malloc_total += i;
}
else
{
mmap_total += i;
mmap_count++;
}
}
print_info();
for( i = 0; i < ARRAY_SIZE; i++)
{
if ( i % 2 == 0)
continue;
free(ptr_arr[i]);
if ( i < 128)
{
heap_free_total += i;
}
else
{
mmap_total -= i;
mmap_count--;
}
}
printf("\nafter free\n");
print_info();
return 1;
}
該例子第一個循環為指針數組每個成員分配索引位置 (KB) 大小的內存塊,並通過 128 為分界分別對 heap 和 mmap 內存分配情況進行計數;
第二個循環是 free 索引下標為奇數的項,同時更新計數情況。通過程序的計數與mallinfo/malloc_stats 接口得到結果進行對比,並通過 print_info打印到終端。
下面是一個執行結果:
count by itself:
heap_malloc_total=8323072 heap_free_total=0 heap_in_use=8323072
mmap_total=12054528 mmap_count=72
count by mallinfo:
heap_malloc_total=8327168 heap_free_total=2032 heap_in_use=8325136
mmap_total=12238848 mmap_count=72
from malloc_stats:
Arena 0:
system bytes = 8327168
in use bytes = 8325136
Total (incl. mmap):
system bytes = 20566016
in use bytes = 20563984
max mmap regions = 72
max mmap bytes = 12238848
after free
count by itself:
heap_malloc_total=8323072 heap_free_total=4194304 heap_in_use=4128768
mmap_total=6008832 mmap_count=36
count by mallinfo:
heap_malloc_total=8327168 heap_free_total=4197360 heap_in_use=4129808
mmap_total=6119424 mmap_count=36
from malloc_stats:
Arena 0:
system bytes = 8327168
in use bytes = 4129808
Total (incl. mmap):
system bytes = 14446592
in use bytes = 10249232
max mmap regions = 72
max mmap bytes = 12238848
由上可知,程序統計和mallinfo 得到的信息基本吻合,其中 heap_free_total 表示堆內已釋放的內存碎片總和。
如果想知道堆內究竟有多少碎片,可通過 mallinfo 結構中的 fsmblks 、smblks 、ordblks 值得到,這些值表示不同大小區間的碎片總個數,這些區間分別是 0~80 字節,80~512 字節,512~128k。如果 fsmblks 、 smblks 的值過大,那碎片問題可能比較嚴重了。
不過, mallinfo 結構有一個很致命的問題,就是其成員定義全部都是 int ,在 64 位環境中,其結構中的 uordblks/fordblks/arena/usmblks 很容易就會導致溢出,應該是歷史遺留問題,使用時要注意!
四、既然堆內內存brk和sbrk不能直接釋放,為什么不全部使用 mmap 來分配,munmap直接釋放呢?
既然堆內碎片不能直接釋放,導致疑似“內存泄露”問題,為什么 malloc 不全部使用 mmap 來實現呢(mmap分配的內存可以會通過 munmap 進行 free ,實現真正釋放)?而是僅僅對於大於 128k 的大塊內存才使用 mmap ?
其實,進程向 OS 申請和釋放地址空間的接口 sbrk/mmap/munmap 都是系統調用,頻繁調用系統調用都比較消耗系統資源的。並且, mmap 申請的內存被 munmap 后,重新申請會產生更多的缺頁中斷。例如使用 mmap 分配 1M 空間,第一次調用產生了大量缺頁中斷 (1M/4K 次 ) ,當munmap 后再次分配 1M 空間,會再次產生大量缺頁中斷。缺頁中斷是內核行為,會導致內核態CPU消耗較大。另外,如果使用 mmap 分配小內存,會導致地址空間的分片更多,內核的管理負擔更大。
同時堆是一個連續空間,並且堆內碎片由於沒有歸還 OS ,如果可重用碎片,再次訪問該內存很可能不需產生任何系統調用和缺頁中斷,這將大大降低 CPU 的消耗。 因此, glibc 的 malloc 實現中,充分考慮了 sbrk 和 mmap 行為上的差異及優缺點,默認分配大塊內存 (128k) 才使用 mmap 獲得地址空間,也可通過 mallopt(M_MMAP_THRESHOLD, <SIZE>) 來修改這個臨界值。
五、如何查看進程的缺頁中斷信息?
可通過以下命令查看缺頁中斷信息
ps -o majflt,minflt -C <program_name>
ps -o majflt,minflt -p <pid>
其中:: majflt 代表 major fault ,指大錯誤;
minflt 代表 minor fault ,指小錯誤。
這兩個數值表示一個進程自啟動以來所發生的缺頁中斷的次數。
其中 majflt 與 minflt 的不同是::
majflt 表示需要讀寫磁盤,可能是內存對應頁面在磁盤中需要load 到物理內存中,也可能是此時物理內存不足,需要淘汰部分物理頁面至磁盤中。
參看:: http://blog.163.com/xychenbaihu@yeah/blog/static/132229655201210975312473/
六、除了 glibc 的 malloc/free ,還有其他第三方實現嗎?
其實,很多人開始詬病 glibc 內存管理的實現,特別是高並發性能低下和內存碎片化問題都比較嚴重,因此,陸續出現一些第三方工具來替換 glibc 的實現,最著名的當屬 google 的tcmalloc和facebook 的jemalloc 。
網上有很多資源,可以自己查(只用使用第三方庫,代碼不用修改,就可以使用第三方庫中的malloc)。
參考資料:
《深入理解計算機系統》第 10 章
http://www.kernel.org/doc/Documentation/x86/x86_64/mm.txt
https://www.ibm.com/developerworks/cn/linux/l-lvm64/
http://www.kerneltravel.net/journal/v/mem.htm
http://blog.csdn.net/baiduforum/article/details/6126337
http://www.nosqlnotes.net/archives/105
http://www.man7.org/linux/man-pages/man3/mallinfo.3.html
原文地址:http://blog.163.com/xychenbaihu@yeah/blog/static/132229655201210975312473/
測試程序代碼
#include <malloc.h> #include <string.h> #include <stdlib.h> #include <iostream> static void display_mallinfo(void) { struct mallinfo mi; mi = mallinfo(); printf("Total non-mmapped bytes (arena): %d\n", mi.arena); printf("# of free chunks (ordblks): %d\n", mi.ordblks); printf("# of free fastbin blocks (smblks): %d\n", mi.smblks); printf("# of mapped regions (hblks): %d\n", mi.hblks); printf("Bytes in mapped regions (hblkhd): %d\n", mi.hblkhd); printf("Max. total allocated space (usmblks): %d\n", mi.usmblks); printf("Free bytes held in fastbins (fsmblks): %d\n", mi.fsmblks); printf("Total allocated space (uordblks): %d\n", mi.uordblks); printf("Total free space (fordblks): %d\n", mi.fordblks); printf("Topmost releasable block (keepcost): %d\n", mi.keepcost); } int main(int argc, char *argv[]) { #define MAX_ALLOCS 2000000 char *alloc[MAX_ALLOCS]; int numBlocks, j, freeBegin, freeEnd, freeStep; size_t blockSize; if (argc < 3 || strcmp(argv[1], "--help") == 0) { printf("%s num-blocks block-size [free-step [start-free " "[end-free]]]\n", argv[0]); return 0; } numBlocks = atoi(argv[1]); blockSize = atoi(argv[2]); freeStep = (argc > 3) ? atoi(argv[3]) : 1; freeBegin = (argc > 4) ? atoi(argv[4]) : 0; freeEnd = (argc > 5) ? atoi(argv[5]) : numBlocks; printf("============== Before allocating blocks ==============\n"); display_mallinfo(); for (j = 0; j < numBlocks; j++) { if (numBlocks >= MAX_ALLOCS) std::cout<<"Too many allocations"<<std::endl; alloc[j] = (char *)malloc(blockSize); if (alloc[j] == NULL) std::cout<<"malloc"<<std::endl; } printf("\n============== After allocating blocks ==============\n"); display_mallinfo(); for (j = freeBegin; j < freeEnd; j += freeStep) { free(alloc[j]); } printf("\n============== After freeing blocks ==============\n"); display_mallinfo(); exit(EXIT_SUCCESS); }
=====================上面是拷貝別人的基礎知識,有了基礎才好繼續領悟========================
1.通過gdb查找main的棧起始地址(可以考慮增加一個全局變量,在它調用構造函數時記錄下其地址。)
操作系統棧的地址分配是每個程序分配127T(64位)虛擬內存,程序看到的只是虛擬地址,任何程序線程棧入口都是接近0x7fffffffffff(由0x7fffffffffff加上一個隨機值)。 進入main函數時的棧指針並不是真正棧起始地址,因為編譯器添加的其他准備代碼處理在調用到main之前已經消耗一部分的棧空間。
2.進一步考慮
由於虛擬內存的存在,系統整理內存也就成為可能。 分析即使系統內存整理調整后,虛擬內存的地址也不會變,各個線程的棧內存也應該不會發生變化,只是每個內存頁對應的物理內存發生變化。
進程啟動后增加各個線程棧起始地址打印,應該可以用於某些core之后無棧問題的定位。