關於fork函數中的內存復制和共享


  原來剛剛開始做linux下面的多進程編程的時候,對於下面這段代碼感到很奇怪,

 1 #include<unistd.h>
 2 #include<stdio.h>
 3 #include<string.h>
 4 #include<stdlib.h>
 5 #include<stdarg.h>
 6 #include<errno.h>
 7 #define LEN 2
 8 void err_exit(char *fmt,...);
 9 int main(int argc,char *argv[])
10 {
11     pid_t pid;
12     int loop; 
13 
14     for(loop=0;loop<LEN;loop++)
15     {
16     if((pid=fork()) < 0)
17         err_exit("[fork:%d]: ",loop);
18     else if(pid == 0)
19     {
20        printf("Child process\n"); 
21     }
22     else
23     {
24         sleep(5);
25     }
26     }
27 
28     return 0;
29 }

    為什么這段程序會創建3個子進程,而不是兩個,為什么在第20行后面加上一個return 0;就創建的又是兩個子進程了?原來一直搞不明白,后來了解了C語言程序的存儲空間布局以及在fork之后父子進程是共享正文段(代碼段CS)之后才明白這其中的緣由!具體原理是啥,且容我慢慢道來!

 

    首先得明白一個東西就是C程序的存儲空間布局,如下圖所示:

  (原圖出自《UNIX環境高級編程》7.6節)

    當一個C程序執行之后,它會被加載到內存之中,它在內存中的布局如上圖,分為這么幾個部分,環境變量和命令行參數、棧、堆、數據段(初始化和未初始化的)、正文段,下面挨個來說明這幾段分別代表了什么:

    環境變量和命令行參數:這些指的就是Unix系統上的環境變量(比如$PATH)和傳給main函數的參數(argv指針所指向的內容)。

    數據段:這個是指在C程序中定義的全局變量,如果沒有初始化,那么就存放在未初始化的數據段中,程序運行時統一由exec賦值為0。否則就存放在初始化的數據段中,程序運行時由exec統一從程序文件中讀取。(了解匯編的朋友們想必知道匯編語言中的數據段DS,這和匯編中的數據段其實是一個東西)。

    堆:這一部分主要用來動態分配空間。比如在C語言中用malloc申請的空間就是在這個區域申請的。

    正文段:C語言代碼並不是直接執行的,而是被編譯成了機器指令才能夠在電腦上執行,最終生成的機器指令就是存放在這個區域(匯編中的代碼段CS指的就是這片區域)。

    棧:個人感覺這是C程序內存布局最關鍵的部分了。這個部分主要用來做函數調用。具體而言怎么說呢,程序剛開始棧中只有main這一個函數的內容(即main的棧幀),如果main函數要調用func函數,那么func函數的返回地址(main函數的地址),func函數的參數,func函數中定義的局部變量,還有func函數的返回值等等這些都會被壓入棧中,這時棧中就多了func函數的內容(func的棧幀)。然后func函數運行完了之后再來彈棧,把它原來壓的內容去掉(即清除掉func棧幀),此時棧中又只剩下了main的棧幀。(這片區域就是匯編中的棧段SS)

    OK,這就是C程序的存儲器布局。這里我聯想到另外一點,就是全局變量和靜態變量是存儲在數據段中的,而局部變量是存儲在棧中的,棧中數據在函數調用完之后一彈棧就沒了,這就是為什么全局變量的生存周期比局部變量的生存周期要長的原因。

 

    了解了C程序在存儲器的布局之后,我們再來了解fork的內存復制機制,關於這個,我們只需要了解一句話就夠了,“子進程復制父進程的數據空間(數據段)、棧和堆,父、子進程共享正文段。”也就是說,對於程序中的數據,子進程要復制一份,但是對於指令,子進程並不復制而是和父進程共享。具體來看下面這段代碼(這是我在上面那段代碼上稍微添加了一點東西):

 1 /*  這個程序會創建3個子進程,理解這句話,父子進程復制數據段、棧、堆,共享正文段
 2  *
 3  */
 4 #include<unistd.h>
 5 #include<stdio.h>
 6 #include<string.h>
 7 #include<stdlib.h>
 8 #include<stdarg.h>
 9 #include<errno.h>
10 #define BUFSIZE 512
11 #define LEN 2
12 void err_exit(char *fmt,...);
13 int main(int argc,char *argv[])
14 {
15     pid_t pid;
16     int loop; 
17 
18     for(loop=0;loop<LEN;loop++)
19     {
20     printf("Now is No.%d loop:\n",loop);
21 
22     if((pid=fork()) < 0)
23         err_exit("[fork:%d]: ",loop);
24     else if(pid == 0)
25     {
26        printf("[Child process]P:%d C:%d\n",getpid(),getppid()); 
27     }
28     else
29     {
30         sleep(5);
31     }
32     }
33 
34     return 0;
35 }

    為什么上面那段代碼會創建三個子進程?我們來具體分析一下它的執行過程:

    首先父進程執行循環,通過fork創建一個子進程,然后sleep5秒。

    再來看父進程創建的這個子進程,這里我們記為子進程1.子進程1完全復制了這個父進程的數據部分,但是需要注意的是它的正文段是和父進程共享的。也就是說,子進程1開始執行代碼的部分並不是從main的 { 開始執行的,而是主函數執行到哪里了,它就接着執行,具體而言就是它會執行fork后面的代碼。所以子進程1首先會打印出它的ID和它的父進程的ID。然后繼續第二遍循環,然后這個子進程1再來創建一個子進程,我們記為子進程11,子進程1開始sleep。

    子進程11接着子進程1執行的代碼開始執行(即fork后面),它也是打印出它的ID和父進程ID(子進程1),然后此時loop的值再加1就等於2了,所以子進程2直接就返回了。

    那個子進程1sleep完了之后也是loop的值加1之后變成了2,所以子進程1也返回了!

    然后我們再返回去看父進程,它僅僅循環了一次,sleep完之后再來進行第二次循環,這次又創建了一個子進程我們記為子進程2。然后父進程開始sleep,sleep完了之后也結束了。

    那么那個子進程2怎么樣了呢?它從fork后開始執行,此時loop等於1,它打印完它的ID和父進程ID之后,就結束循環了,整個子進程2就直接結束了!

    這就是上面那段代碼的運行流程,進程間的關系如下圖所示:

    

    上圖中那個loop=%d就是當這個進程開始執行的時候loop的值。上面那段代碼的運行結果如下圖:

    

    這里這個3498進程就是我們的主進程,3499就是子進程1,3500就是子進程11,3501就是子進程2。

 

    最后,我們再來回答一下我們開始的時候提出的那個問題,為什么在子進程的處理部分“ if(pid == 0) ”最后加一個return 0,就會創建兩個子進程了,就是因為子進程1運行到這里直接就結束了,不再進行第二遍循環了,所以就不會再去創建那個子進程11了,所以最后一共就是創建了兩個子進程啊!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM