五分鍾掃盲:進程與線程基礎必知


 

🎓 盡人事,聽天命。博主東南大學碩士在讀,熱愛健身和籃球,樂於分享技術相關的所見所得,關注公眾號 @ 飛天小牛肉,第一時間獲取文章更新,成長的路上我們一起進步

🎁 本文已收錄於 CS-Wiki(Gitee 官方推薦項目,現已 1.0k+ star),致力打造完善的后端知識體系,在技術的路上少走彎路,歡迎各位小伙伴前來交流學習

 

全文脈絡思維導圖如下:

1. 進程與線程的簡單解釋

進程(Process)和線程(Thread)是操作系統的基本概念,但是它們比較抽象,不容易掌握。以下這個解釋出自阮一峰老師的博客(http://www.ruanyifeng.com/blog/2013/04/processes_and_threads.html),雖然不是非常嚴謹,但是足夠形象,看完之后能對進程和線程有個非常直觀的印象,這樣也方便理解后文。

① 計算機的核心是 CPU,它承擔了所有的計算任務。它就像一座工廠,時刻在運行。

假定工廠的電力有限,一次只能供給一個車間使用。也就是說,一個車間開工的時候,其他車間都必須停工。背后的含義就是,單個 CPU 一次只能運行一個任務。

③ 進程就好比工廠的車間,它代表 CPU 所能處理的單個任務。任一時刻,CPU 總是運行一個進程,其他進程處於非運行狀態。

④ 一個車間里,可以有很多工人。他們協同完成一個任務。

⑤ 線程就好比車間里的工人。一個進程可以包括多個線程。

⑥ 車間的空間是工人們共享的,比如許多房間是每個工人都可以進出的。這象征一個進程的內存空間是共享的,每個線程都可以使用這些共享內存。

⑦ 可是,每間房間的大小不同,有些房間最多只能容納一個人,比如廁所。里面有人的時候,其他人就不能進去了。這代表一個線程使用某些共享內存時,其他線程必須等它結束,才能使用這一塊內存。

⑧ 一個防止他人進入的簡單方法,就是門口加一把鎖。先到的人鎖上門,后到的人看到上鎖,就在門口排隊,等鎖打開再進去。這就叫"互斥鎖"(Mutual exclusion,縮寫 Mutex),防止多個線程同時讀寫某一塊內存區域。

⑨ 還有些房間,可以同時容納 n 個人,比如廚房。也就是說,如果人數大於 n,多出來的人只能在外面等着。這好比某些內存區域,只能供給固定數目的線程使用。

⑩ 這時的解決方法,就是在門口掛 n 把鑰匙。進去的人就取一把鑰匙,出來時再把鑰匙掛回原處。后到的人發現鑰匙架空了,就知道必須在門口排隊等着了。這種做法叫做 "信號量"(Semaphore),用來保證多個線程不會互相沖突。

不難看出,互斥鎖 Mutex 是信號量 semaphore 的一種特殊情況(n = 1時)。也就是說,完全可以用后者替代前者。但是,因為 Mutex 較為簡單,且效率高,所以在必須保證資源獨占的情況下,還是采用這種設計。

2. 進程基礎掃盲

① 什么是進程

結合上文的簡單解釋,下面給出進程的科學定義:進程是程序在某個數據集合上的一次運行活動,也是操作系統進行資源分配和保護的基本單位

通俗來說,進程就是程序的一次執行過程,程序是靜態的,它作為系統中的一種資源是永遠存在的。而進程是動態的,它是動態的產生,變化和消亡的,擁有其自己的生命周期。

舉個例子:同時掛三個 QQ 號,它們就對應三個 QQ 進程,退出一個就會殺死一個對應的進程。但是,就算你把這三個 QQ 全都退出了,QQ 這個程序死亡了嗎?顯然沒有。

進程不僅包含正在運行的程序實體,並且包括這個運行的程序中占據的所有系統資源,比如說 CPU、內存、網絡資源等。很多小伙伴在回答進程的概念的時候,往往只會說它是一個運行的實體,而會忽略掉進程所占據的資源。比如說,同樣一個程序,同一時刻被兩次運行了,那么他們就是兩個獨立的進程。

② 進程的組成

進程主要由三個部分組成:

1)進程控制塊 PCB。包含如下幾個部分:

  • 進程描述信息

  • 進程控制和管理信息

  • 資源分配清單

  • CPU 相關信息

2)數據段。即進程運行過程中各種數據(比如程序中定義的變量)

3)程序段。就是程序的代碼(指令序列)

舉個例子:同時掛三個 QQ 號,會對應三個 QQ 進程,它們的 PCB、數據段各不相同,但程序段的內容都是相同的 (都是運行着相同的 QQ 程序)

PCB 是提供給操作系統用的,而程序段、數據段是給進程自己用的。

進程控制塊 PCB

每個進程有且僅有一個進程控制塊(Process Control Block,PCB),或稱進程描述符,它是進程存在的唯一標識,是操作系統用來記錄和刻畫進程狀態及環境信息的數據結構,也是操作系統掌握進程的唯一資料結構和管理進程的主要依據。所以說 PCB 是提供給操作系統使用的。

通俗的解釋:操作系統需要對各個進程進行管理,但凡管理時所需要的信息,都會被放在 PCB 中,PCB 是進程存在的唯一標志。創建進程和撤銷進程等都是指對 PCB 的操作,當進程被創建時,操作系統為其創建 PCB,當進程結束時,會回收其 PCB。

一般來說,PCB 會包含如下四類信息:

1)進程描述信息:用來讓操作系統區分各個進程

  • 當進程被創建時,操作系統會為該進程分配一個唯一的、不重復的 “身份證號”— PID(ProcessID,進程 ID)

  • 另外,進程描述信息還包含進程所屬的用戶 ID(UID

2)進程控制和管理信息:記錄進程的運行情況。比如 CPU 的使用時間、磁盤使用情況、網絡流量使用情況等。

3)資源分配清單:記錄給進程分配了哪些資源。比如分配了多少內存、正在使用哪些 I/O 設備、正在使用哪些文件等。

4)CPU 相關信息:進程在讓出 CPU 時,必須保存該進程在 CPU 中的各種信息,比如各種寄存器的值。用於實現進程切換,確保這個進程再次運行的時候恢復 CPU 現場,從斷點處繼續執行。這就是所謂的保存現場信息

 

③ 進程的狀態

盡管每一個進程都是獨立的實體,有其自己的 PCB 和內部狀態,但是進程之間經常需要相互作用。一個進程的輸出結果可能是另一個進程的輸入。假設進程 A 的輸入依賴進程 B 的輸出,那么在進程 B 的輸出結果沒有出來之前,進程 A 就無法執行,它就會被阻塞。這就是進程的阻塞態。

經典的進程三態模型如下:

  • 運行態(running):進程占有 CPU 正在運行。

  • 就緒態(ready):進程具備運行條件,等待系統分配 CPU 以便運行。

  • 阻塞態 / 等待態(wait):進程不具備運行條件,正在等待某個事件的完成。

上圖中的時間片用完,可以這樣理解:

進程是並發執行的嘛,宏觀上在一段時間內能同時運行多個程序,但其實微觀上是交替發生的。也就是說 CPU 一般不會讓一個進程一次性執行完,為了保證所有進程可以得到公平調度,CPU 時間被划分為一段段的時間片,這些時間片再被輪流分配給各個進程。某個進程的時間片用完后這個進程就會進入就緒態,而其他被分配到時間片的進程就會進入運行態。這個處於就緒態的進程就需要等待進程調度程序的下一次調度,為其分配 CPU 時間片后才能再次恢復運行。

需要注意的是:阻塞態是由於缺少需要的資源從而由運行態轉換而來,但是該資源不包括 CPU 時間片,缺少 CPU 時間片會從運行態轉換為就緒態

很多系統中都增加了新建態(new)和終止態(exit),形成五態模型

  • 新建態(new):進程正在被創建時的狀態

  • 終止態(exit):進程正在從系統中消失時的狀態

從上圖可以發現,只有就緒態和運行態可以相互轉換,其它的都是單向轉換

這些不同狀態的進程操作系統是如何進行管理的呢?上文說過,PCB 是提供給操作系統使用的,是操作系統管理進程的主要依據。沒錯,操作就是通過 PCB 來管理這些擁有不同狀態的進程的。

進程的 PCB 會通過某種方式組織起來,一般來說,操作系統會把處於同一狀態的所有進程的 PCB 鏈接在一起,這種數據結構就稱為進程隊列(Process Queue)。

④ 進程控制

所謂進程控制就是對系統中的所有進程實施有效的管理,實現進程狀態轉換功能。包括創建進程、阻塞進程、喚醒進程、終止進程等,這些功能均由原語來實現,操作系統通過原語來完成進程原理,包括進程的同步和互斥、進程的通信和管理。

什么是原語?原語是一種特殊的程序,它的執行具有原子性。 也就是說,這段程序的運行必須一氣呵成,不可中斷。原語是操作系統內核里的一段程序:

思考一下:為什么進程控制(進程狀態轉換)的過程要一氣呵成,不可中斷?

答:如果進程狀態轉換的過程不能一氣呵成,就有可能導致操作系統中的某些關鍵數據結構信息不統一,這會影響操作系統進行別的管理工作。

進程的創建

操作系統初始啟動時會創建承擔系統資源分配和控制管理的一些系統進程,同時還會創建一個所有用戶進程的祖先,其他用戶進程是在應用程序運行時創建的。

操作系統允許一個進程創建另一個進程,而且允許子進程繼承父進程所擁有的資源,當子進程被終止時,其在父進程處繼承的資源應當還給父進程。同時,終止父進程時同時也會終止其所有的子進程。

創建進程的過程,也就是創建原語包含的內容如下:

  • 在進程列表中增加一項,從 PCB 池中申請一個空閑的 PCB(PCB 是有限的,若申請失敗則創建失敗),為新進程分配一個唯一的進程標識符;

  • 為新進程分配地址空間,由進程管理程序確定加載至進程地址空間中的程序;

  • 為新進程分配各種資源;

  • 初始化 PCB,如進程標識符、CPU 初始狀態等;

  • 把新進程的狀態設置為就緒態,並將其移入就緒隊列,等待被調度運行。

什么事件會觸發進程的創建呢?有如下四種情況:

  • 用戶登錄:分時系統中,用戶登錄成功,系統會為其建立一個新的進程

  • 作業調度:多道批處理系統中,有新的作業放入內存中,會為其建立一個新的進程

  • 提供服務:用戶向操作系統提出某些請求時,會新建一個進程處理該請求

  • 應用請求:由用戶進程主動請求創建一個子進程

進程的終止

進程的終止也稱為撤銷,進程完成特定工作或出現嚴重錯誤后必須被終止。引起進程終止的事件有三種:

  • 正常結束:進程自己請求終止(exit 系統調用)

  • 異常結束:比如整數除 0,非法使用特權指令,然后被操作系統強行終止

  • 外界干預:Ctrl + Alt + delete 打開進程管理器,用戶手動殺死進程

終止(撤銷)進程的過程,也就是撤銷原語包含的內容如下:

  • 從 PCB 集合中找到終止進程的 PCB;

  • 若進程處於運行態,則立即剝奪其 CPU,終止該進程的執行,然后將 CPU 資源分配給其他進程;

  • 如果其還有子進程,則應將其所有子進程終止;

  • 將該進程所擁有的全部資源都歸還給父進程或操作系統;

  • 回收 PCB 並將其歸還至 PCB 池。

進程的阻塞和喚醒

進程阻塞是指進程讓出 CPU 資源轉而等待一個事件,如等待資源、等待 I/O 操作完成等。進程通常使用阻塞原語來阻塞自己,所以阻塞是進程的自主行為,是一個同步事件。當等待事件完成時會產生一個中斷,激活操作系統,在系統的控制下將被阻塞的進程喚醒,也就是喚醒原語。

進程的阻塞和喚醒顯然是由進程切換來完成的。

進程的阻塞步驟,也就是阻塞原語的內容為:

  • 找到將要被阻塞的進程對應的 PCB;

  • 保護進程運行現場,將 PCB 狀態信息設置為阻塞態,暫時停止進程運行;

  • 將該 PCB 插入相應事件的阻塞隊列(等待隊列)。

進程的喚醒步驟,也就是喚醒原語的內容為:

  • 在該事件的阻塞隊列中找到相應進程的 PCB;

  • 將該 PCB 從阻塞隊列中移出,並將進程的狀態設置為就緒態;

  • 把該 PCB 插入到就緒隊列中,等待被調度程序調度。

阻塞原語和喚醒原語的作用正好相反,阻塞原語使得進程從運行態轉為阻塞態,而喚醒原語使得進程從阻塞態轉為就緒態。如果某個進程使用阻塞原語來阻塞自己,那么他就必須使用喚醒原語來喚醒自己,因何事阻塞,就由何事喚醒,否則被阻塞的進程將永遠處於阻塞態。因此,阻塞原語和喚醒原語是成對出現的

⑤ 進程上下文切換

所謂進程的上下文切換,就是說各個進程之間是共享 CPU 資源的,不可能一個進程永遠占用着 CPU 資源,不同的時候進程之間需要切換,使得不同的進程被分配 CPU 資源,這個過程就是進程的上下文切換,一個進程切換到另一個進程運行

因為進程是由內核進行管理和調度的,所以進程的上下文切換一定發生在內核態

進程上下文的切換也是一個原語操作,稱為切換原語,其內容如下:

  • 首先,將進程 A 的運行環境信息存入 PCB,這個運行環境信息就是進程的上下文(Context)

  • 然后,將 PCB 移入相應的進程隊列;

  • 選擇另一個進程 B 進行執行,並更新其 PCB 中的狀態為運行態

  • 當進程 A 被恢復運行的時候,根據它的 PCB 恢復進程 A 所需的運行環境

引起進程上下文切換的事件,也就是某個占用 CPU 資源運行的當前進程被趕出 CPU 的原因有如下:

  • 當前進程的時間片到

  • 有更高優先級的進程到達

  • 當前進程主動阻塞

  • 當前進程終止

3. 線程基礎掃盲

① 什么是線程

結合文章開頭的簡單解釋,一個進程中可以有多個線程,它們共享這個進程的資源。

舉個例子,QQ 和 Chrome 瀏覽器是兩個進程,Chrome 進程里面有很多線程,例如 HTTP 請求線程、事件響應線程、渲染線程等等,線程的並發執行使得在瀏覽器中點擊一個新鏈接從而發起 HTTP 請求時,瀏覽器還可以響應用戶的其它事件。

② 為什么要引入線程

早期的操作系統都是以進程作為獨立運行的基本單位的,直到后期計算機科學家們又提出了更小的能獨立運行的基本單位,也就是線程。這就好比物理學家研究物質組成一樣:先發現了分子,然后繼續細分發現原子,再后來是原子核和電子、誇克等等。

那么,為什么要引入線程呢?我們只需要記住這句話:線程又稱為迷你進程,但是它比進程更容易創建,也更容易撤銷

從上文我們知道,進程是擁有資源的基本單位,而且還能夠進行獨立調度,這就猶如一個隨時背着糧草的士兵,這必然會造成士兵的執行命令(戰斗)的速度。所以,一個簡單想法就是:分配兩個士兵執行同一個命令:一個負責攜帶所需糧草隨時供給,另一個士兵負責執行命令(戰斗)。這就是線程的思想,輕裝上陣的士兵就是線程

用嚴謹的語言描述來說就是:由於創建或撤銷進程時,系統都要為之分配或回收資源,如內存空間、I/O 設備等,需要較大的時空開銷,限制了並發程度的進一步提高。為減少進程切換的開銷,把進程作為資源分配單位和調度單位這兩個屬性分開處理,即進程還是作為資源分配的基本單位,但是不作為調度的基本單位(很少調度或切換),把調度執行與切換的責任交給線程,即線程成為獨立調度的基本單位,它比進程更容易(更快)創建,也更容易撤銷。

記住這句話!引入線程前,進程是資源分配和獨立調度的基本單位。引入線程后,進程是資源分配的基本單位,線程是獨立調度的基本單位

③ 線程優缺點

線程的特征和進程差不多,進程有的他基本都有,比如:

  • 線程具有就緒、阻塞、運行三種基本狀態,同樣具有狀態之間的轉換關系;

  • 線程間可以並發執行

  • 在多 CPU 環境下,各個線程也可以分派到不同的 CPU 上並行執行

線程的優點:

  • 一個進程中可以同時存在多個線程,這些線程共享該進程的資源。進程間的通信必須請求操作系統服務(因為 CPU 要切換到內核態),開銷很大。而同進程下的線程間通信,無需操作系統干預,開銷更小。

    不過,需要注意的是:從屬於不同進程的線程間通信,也必須請求操作系統服務。

  • 線程間的並發比進程的開銷更小,系統並發性提升。

    同樣,需要注意的是:從屬於不同進程的線程間切換,它是會導致進程切換的,所以開銷也大。

線程的缺點:

  • 當進程中的一個線程奔潰時,會導致其所屬進程的所有線程奔潰。

舉個例子,對於游戲的用戶設計,就不應該使用多線程的方式,否則一個用戶掛了,會影響其他同個進程的線程。

4. 總結

操作系統的設計,從進程和線程的角度來說,可以歸結為三點:

  • 以多進程形式,允許多個任務同時運行;

  • 以多線程形式,允許單個任務分成不同的部分運行;

  • 提供協調機制,一方面防止進程之間和線程之間產生沖突,另一方面允許進程之間和線程之間共享資源。

參考資料

🎉 關注公眾號 | 飛天小牛肉,即時獲取更新

  • 博主東南大學碩士在讀,利用課余時間運營一個公眾號『 飛天小牛肉 』,2020/12/29 日開通,專注分享計算機基礎(數據結構 + 算法 + 計算機網絡 + 數據庫 + 操作系統 + Linux)、Java 基礎和面試指南的相關原創技術好文。本公眾號的目的就是讓大家可以快速掌握重點知識,有的放矢。希望大家多多支持哦,和小牛肉一起成長 😃

  • 並推薦個人維護的開源教程類項目: CS-Wiki(Gitee 推薦項目,現已 1.0k+ star), 致力打造完善的后端知識體系,在技術的路上少走彎路,歡迎各位小伙伴前來交流學習 ~ 😊


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM