Linux的進程、線程、文件描述符是什么

本文轉載自查看原文 2020-02-17 09:41 679 技術文章

說到進程，恐怕面試中最常見的問題就是線程和進程的關系了，那么先說一下答案：在 Linux 系統中，進程和線程幾乎沒有區別。

Linux 中的進程就是一個數據結構，看明白就可以理解文件描述符、重定向、管道命令的底層工作原理，最后我們從操作系統的角度看看為什么說線程和進程基本沒有區別。

一、進程是什么

首先，抽象地來說，我們的計算機就是這個東西：

這個大的矩形表示計算機的內存空間，其中的小矩形代表進程，左下角的圓形表示磁盤，右下角的圖形表示一些輸入輸出設備，比如鼠標鍵盤顯示器等等。另外，注意到內存空間被划分為了兩塊，上半部分表示用戶空間，下半部分表示內核空間。

用戶空間裝着用戶進程需要使用的資源，比如你在程序代碼里開一個數組，這個數組肯定存在用戶空間；內核空間存放內核進程需要加載的系統資源，這一些資源一般是不允許用戶訪問的。但是注意有的用戶進程會共享一些內核空間的資源，比如一些動態鏈接庫等等。

我們用 C 語言寫一個 hello 程序，編譯后得到一個可執行文件，在命令行運行就可以打印出一句 hello world，然后程序退出。在操作系統層面，就是新建了一個進程，這個進程將我們編譯出來的可執行文件讀入內存空間，然后執行，最后退出。

你編譯好的那個可執行程序只是一個文件，不是進程，可執行文件必須要載入內存，包裝成一個進程才能真正跑起來。進程是要依靠操作系統創建的，每個進程都有它的固有屬性，比如進程號（PID）、進程狀態、打開的文件等等，進程創建好之后，讀入你的程序，你的程序才被系統執行。

那么，操作系統是如何創建進程的呢？對於操作系統，進程就是一個數據結構，我們直接來看 Linux 的源碼：

struct task_struct {
	// 進程狀態
	long			  state;
	// 虛擬內存結構體
	struct mm_struct  *mm;
	// 進程號
	pid_t			  pid;
	// 指向父進程的指針
	struct task_struct __rcu  *parent;
	// 子進程列表
	struct list_head		children;
	// 存放文件系統信息的指針
	struct fs_struct		*fs;
	// 一個數組，包含該進程打開的文件指針
	struct files_struct		*files;
};

task_struct就是 Linux 內核對於一個進程的描述，也可以稱為「進程描述符」。源碼比較復雜，我這里就截取了一小部分比較常見的。

其中比較有意思的是mm指針和files指針。mm指向的是進程的虛擬內存，也就是載入資源和可執行文件的地方；files指針指向一個數組，這個數組里裝着所有該進程打開的文件的指針。

二、文件描述符是什么

先說files，它是一個文件指針數組。一般來說，一個進程會從files[0]讀取輸入，將輸出寫入files[1]，將錯誤信息寫入files[2]。

舉個例子，以我們的角度 C 語言的printf函數是向命令行打印字符，但是從進程的角度來看，就是向files[1]寫入數據；同理，scanf函數就是進程試圖從files[0]這個文件中讀取數據。

每個進程被創建時，files的前三位被填入默認值，分別指向標准輸入流、標准輸出流、標准錯誤流。我們常說的「文件描述符」就是指這個文件指針數組的索引，所以程序的文件描述符默認情況下 0 是輸入，1 是輸出，2 是錯誤。

我們可以重新畫一幅圖：

對於一般的計算機，輸入流是鍵盤，輸出流是顯示器，錯誤流也是顯示器，所以現在這個進程和內核連了三根線。因為硬件都是由內核管理的，我們的進程需要通過「系統調用」讓內核進程訪問硬件資源。

PS：不要忘了，Linux 中一切都被抽象成文件，設備也是文件，可以進行讀和寫。

如果我們寫的程序需要其他資源，比如打開一個文件進行讀寫，這也很簡單，進行系統調用，讓內核把文件打開，這個文件就會被放到files的第 4 個位置：

明白了這個原理，輸入重定向就很好理解了，程序想讀取數據的時候就會去files[0]讀取，所以我們只要把files[0]指向一個文件，那么程序就會從這個文件中讀取數據，而不是從鍵盤：

同理，輸出重定向就是把files[1]指向一個文件，那么程序的輸出就不會寫入到顯示器，而是寫入到這個文件中：

錯誤重定向也是一樣的，就不再贅述。

管道符其實也是異曲同工，把一個進程的輸出流和另一個進程的輸入流接起一條「管道」，數據就在其中傳遞，不得不說這種設計思想真的很優美：

到這里，你可能也看出「Linux 中一切皆文件」設計思路的高明了，不管是設備、另一個進程、socket 套接字還是真正的文件，全部都可以讀寫，統一裝進一個簡單的files數組，進程通過簡單的文件描述符訪問相應資源，具體細節交於操作系統，有效解耦，優美高效。

三、線程是什么

首先要明確的是，多進程和多線程都是並發，都可以提高處理器的利用效率，所以現在的關鍵是，多線程和多進程有啥區別。

為什么說 Linux 中線程和進程基本沒有區別呢，因為從 Linux 內核的角度來看，並沒有把線程和進程區別對待。

我們知道系統調用fork()可以新建一個子進程，函數pthread()可以新建一個線程。但無論線程還是進程，都是用task_struct結構表示的，唯一的區別就是共享的數據區域不同。

換句話說，線程看起來跟進程沒有區別，只是線程的某些數據區域和其父進程是共享的，而子進程是拷貝副本，而不是共享。就比如說，mm結構和files結構在線程中都是共享的，我畫兩張圖你就明白了：

所以說，我們的多線程程序要利用鎖機制，避免多個線程同時往同一區域寫入數據，否則可能造成數據錯亂。

那么你可能問，既然進程和線程差不多，而且多進程數據不共享，即不存在數據錯亂的問題，為什么多線程的使用比多進程普遍得多呢？

因為現實中數據共享的並發更普遍呀，比如十個人同時從一個賬戶取十元，我們希望的是這個共享賬戶的余額正確減少一百元，而不是希望每人獲得一個賬戶的拷貝，每個拷貝賬戶減少十元。

當然，必須要說明的是，只有 Linux 系統將線程看做共享數據的進程，不對其做特殊看待，其他的很多操作系統是對線程和進程區別對待的，線程有其特有的數據結構，我個人認為不如 Linux 的這種設計簡潔，增加了系統的復雜度。

在 Linux 中新建線程和進程的效率都是很高的，對於新建進程時內存區域拷貝的問題，Linux 采用了 copy-on-write 的策略優化，也就是並不真正復制父進程的內存空間，而是等到需要寫操作時才去復制。所以 Linux 中新建進程和新建線程都是很迅速的。

我最近精心制作了一份電子書《labuladong的算法小抄》，分為【動態規划】【數據結構】【算法思維】【高頻面試】四個章節，共 60 多篇原創文章，絕對精品！限時開放下載，在我的公眾號 labuladong 后台回復關鍵詞【pdf】即可免費下載！

歡迎關注我的公眾號 labuladong，技術公眾號的清流，堅持原創，致力於把問題講清楚！

labuladong

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 文件描述符是什么 Linux的文件描述符 Linux文件描述符 Linux進程關於文件描述符的數量限制進程間傳遞文件描述符 linux一切皆文件之文件描述符（一） Linux 文件描述符詳解文件句柄、文件描述符與進程和多線程的那些事 Linux中文件描述符的理解 Linux 文件描述符和重定向