文章已收錄我的倉庫:Java學習筆記與免費書籍分享
進程間通信方式
引言
在操作系統中,一個進程可以理解為是關於計算機資源集合的一次運行活動,其就是一個正在執行的程序的實例。從概念上來說,一個進程擁有它自己的虛擬CPU和虛擬地址空間,任何一個進程對於彼此而言都是相互獨立的,這也引入了一個問題 —— 如何讓進程之間互相通信?
由於進程之間是互相獨立的,沒有任何手段直接通信,因此我們需要借助操作系統來輔助它們。舉個通俗的例子,假如A與B之間是獨立的,不能彼此聯系,如果它們想要通信的話可以借助第三方C,比如A將信息交給C,C再將信息轉交給B —— 這就是進程間通信的主要思想 —— 共享資源。
這里要解決的一個重要的問題就是如何避免競爭,即避免多個進程同時訪問臨界區的資源。
共享內存
共享內存是進程間通信中最簡單的方式之一。共享內存允許兩個或更多進程訪問同一塊內存。當一個進程改變了這塊地址中的內容的時候,其它進程都會察覺到這個更改。
你可能會想到,我直接創建一個文件,然后進程不就都可以訪問了?
是的,但這個方法有幾個缺陷:
- 訪問文件需要陷入系統調用,由用戶態切入內核態,然后執行內核指令。這樣做效率是非常低的,並且是不受用戶掌握的。
- 直接訪問磁盤是非常慢的,比訪問內存要慢上幾百倍。從某種意義上說,這是共享磁盤不算共享內存。
Linux下采用共享內存的方式來使進程完成對共享資源的訪問,它將磁盤文件復制到內存,並創建虛擬地址到該內存的映射,就好像該資源本來就在進程空間之中,此后我們就可以像操作本地變量一樣去操作它們了,實際的寫入磁盤將由系統選擇最佳方式完成,例如操作系統可能會批量處理加排序,從而大大提高IO速度。
如同上圖一樣,進程將共享內存映射到自己的虛擬地址空間中,進程訪問共享進程就好像在訪問自己的虛擬內存一樣,速度是非常快的。
共享內存的模型應該是比較好理解的:在物理內存中創建一個共享資源文件,進程將該共享內存綁定到自己的虛擬內存之中。
這里要解決的一個問題是如何將同一塊共享內存綁定到自己的虛擬內存中,要知道在不同進程中使用malloc
函數是會順序分配空閑內存,而不會分配同一塊內存,那么要如何去解決這個問題呢?
Linux操作系統已經想辦法幫我們解決了這個問題,在#include <sys/ipc.h>
和#include <sys/shm.h>
頭文件下,有如下幾個shm系列函數:
-
shmget函數:由ftok()函數獲取需要共享文件資源標識符(IPC鍵),將該資源標識符作為參數獲取共享內存區域的唯一標識ID。
ftok()函數用以標識系統IPC資源,例如這里的共享資源、下文的消息隊列、管道......都屬於IPC資源。
IPC: Inter-Process[ Communication](https://baike.baidu.com/item/ Communication/20394231),進程間通信),IPC是指兩個進程的數據之間產生交互。
-
shmat函數:通過由shmget函數獲取的標識符,建立由共享內存到進程獨立空間的映射。
-
shmdt函數:釋放映射。
由於我們主要走Java/Go開發崗位,我們與這些Linux系統下的C函數打交道的次數可能為0,因此在學習中我不會詳細的描述函數的具體使用方法,當我們用上時Bing搜索即可。
通過上述幾個函數,每個獨立的進程只要有統一的共享內存標識符便可以建立起虛擬地址到物理地址的映射,每個虛擬地址將被翻譯成指向共享區域的物理地址,這樣就實現了對共享內存的訪問。
還有一種相像的實現是采用mmap函數,mmap通常是直接對磁盤的映射——因此不算是共享內存,存儲量非常大,但訪問慢;shmat與此相反,通常將資源保存在內存中創建映射,訪問快,但存儲量較小。
共享內存對比其他幾種方式是效率最高的,因為無需進行多次復制,直接對內存操作,不過要注意一點,操作系統並不保證任何並發問題,例如兩個進程同時更改同一塊內存區域,正如你和你的朋友在線編輯同一個文檔中的同一個標題,這會導致一些不好的結果,所以我們需要借助信號量或其他方式來完成同步。
信號量
信號量是迪傑斯特拉最先提出的一種為解決同步不同執行線程問題
的一種方法,進程與線程抽象來看大同小異,所以信號量同樣可以用於同步進程間通信。
信號量的工作原理
信號量 s 是具有非負整數值的全局變量,由兩種特殊的原子操作來實現,這兩種原子操作稱為 P 和 V :
-
P(s):如果 s 的值大於零,就給它減1,然后立即返回,進程繼續執行。;如果它的值為零,就掛起該進程的執行,等待 s 重新變為非零值。
-
V(s):V操作將 s 的值加1,如果有任何進程在等在 s 值變為非0,那么V操作會重啟這些等待進程中的其中一個(隨機地),然后由該進程執行P操作將 s 重新置為0,而其他等待進程將會繼續等待。
理解信號量
信號量並不用來傳送資源,而是用來保護共享資源,理解這一點是很重要的,信號量 s 的表示的含義為同時允許最大訪問資源的進程數量,它是一個全局變量。來考慮一個上面簡單的例子:兩個進程同時修改而造成錯誤,我們不考慮讀者而僅僅考慮寫者進程,在這個例子中共享資源最多允許一個進程修改資源,因此我們初始化 s 為1。
開始時,A率先寫入資源,此時A調用P(s),將 s 減一,此時 s = 0,A進入共享區工作。
此時,進程B也想進入共享區修改資源,它調用P(s)發現此時s為0,於是掛起進程,加入等待隊列。
A工作完畢,調用V(s),它發現s為0並檢測到等待隊列不為空,於是它隨機喚醒一個等待進程,並將s加1,這里喚醒了B。
B被喚醒,繼續執行P操作,此時s不為0,B成功執行將s置為0並進入工作區。
此時C想要進入工作區......
可以發現,在無論何時只有一個進程能夠訪問共享資源,這就是信號量做的事情,他控制進入共享區的最大進程數量,這取決於初始化s的值。此后,在進入共享區之前調用P操作,出共享區后調用V操作,這就是信號量的思想。
在Linux下並沒有直接的P&V函數,而是需要我們根據這幾個基本的sem函數族進行封裝:
- semget:初始化或獲取一個信號量,這個函數需要接受ftok()的返回值以及初始s的值,它將全局計數變量s綁定在由ftok標識的共享資源上,並返回一個唯一標識的信號量組ID。
- semop:這個函數接受上面函數返回的信號量組ID以及一些其他參數,根據參數的不同有一些不同的操作,他將對與該信號量組ID綁定的全局計數變量 s 進行一些操作,P&V操作便是基於此實現。
- semctl:這個函數接受上面函數返回的信號量組ID以及一些其他參數,主要進行控制信號量相關信息,如刪除該信號量等。
管道
正如其名,管道就如同生活中的一根管道,一端輸送,而另一端接收,雙方不需要知道對方,只需要知道管道就好了。
管道是一種最基本的進程間通信機制。 管道由pipe函數來創建: 調用pipe函數,會在內核中開辟出一塊緩沖區用來進行進程間通信,這塊緩沖區稱為管道,它有一個讀端和一個寫端。管道被分為匿名管道和有名管道。
匿名管道
匿名管道通過pipe函數創建,這個函數接收一個長度為2的Int數組,並返回1或0表示成功或者失敗:
int pipe(int fd[2])
這個函數打開兩個文件描述符,一個讀端文件,一個寫端,分別存入fd[0]和fd[1]中,然后可以作為參數調用write
和read
函數進行寫入或讀取,注意fd[0]只能讀取文件,而fd[1]只能用於寫入文件。
你可能有個疑問,這要怎么實現通信?其他進程又不知道這個管道,因為進程是獨立的,其他進程看不到某一個進程進行了什么操作。
是的,‘其他’進程確實是不知道,但是它的子進程卻可以!這里涉及到fork派生進程的相關知識,一個進程派生一個子進程,那么子進程將會復制父進程的內存空間信息,注意這里是復制而不是共享,這意味着父子進程仍然是獨立的,但是在這一時刻,它們所有的信息又是相等的。因此子進程也知道該全局管道,並且也擁有兩個文件描述符與管道掛鈎,所以匿名管道只能在具有親緣關系的進程間通信。
還要注意,匿名管道內部采用環形隊列實現,只能由寫端到讀端,由於設計技術問題,管道被設計為半雙工的,一方要寫入則必須關閉讀描述符,一方要讀出則必須關閉寫入描述符。因此我們說管道的消息只能單向傳遞。
注意管道是堵塞的,如何堵塞將依賴於讀寫進程是否關閉文件描述符。假設讀管道,如果讀到空時,假設此時寫端口還沒有被完全關閉,那么操作系統會假設還有數據要讀,此時讀進程將會被堵塞,直到有新數據或寫端口被關閉;如果管道為空,且寫端口也被關閉,此時操作系統會認為已經沒有東西可讀,會直接退出,返回0。
當寫端口在寫管道時,如果管道滿了,如果讀端未關閉,寫端會被堵塞;如果讀端關閉,此時操作系統會認為這樣的寫管道是沒有意義的,因為沒有人接收,因此會發送終止信號導致進程
管道內部由內核管理,在半雙工的條件下,保證數據不會出現並發問題。
命名管道
了解了匿名管道之后,有名管道便很好理解了。在匿名管道的介紹中,我們說其他進程不知道管道和文件描述符的存在,所以匿名管道只適用於具有親緣關系的進程,而命名管道則很好的解決了這個問題 —— 現在管道有一個唯一的名稱了,任何進程都可以訪問這個管道。
注意,操作系統將管道看作一個抽象的文件,但管道並不是普通的文件,管道存在於內核空間中而不放置在磁盤(有名管道文件系統上有一個標識符,沒有數據塊),訪問速度更快,但存儲量較小,管道是臨時的,是隨進程的,當進程銷毀,所有端口自動關閉,此時管道也是不存在的,操作系統將所有IO抽象的看作文件,例如網絡也是一種文件,這意味着我們可以采用任何文件方法操作管道,理解這種抽象是很重要的,命名管道就利用了這種抽象。
Linux下,采用mkfifo函數創建,可以傳入要指定的‘文件名’,然后其他進程就可以調用open方法打開這個特殊的文件,並進行write和read操作(那肯定是字節流對吧)。
注意,命名管道適用於任何進程,除了這一點不同外,其余大多數都與匿名管道相同。
消息隊列
什么是消息隊列?
消息隊列亦稱報文隊列,也叫做信箱,是Linux的一種通信機制,這種通信機制傳遞的數據會被拆分為一個一個獨立的數據塊,也叫做消息體,消息體中可以定義類型與數據,克服了無格式承載字節流的缺陷(現在收到void*后可以知道其原本的格式惹):
struct msgbuf {
long mtype; /* 消息的類型 */
char mtext[1]; /* 消息正文 */
};
同管道類似,它有一個不足就是每個消息的最大長度是有上限的,整個消息隊列也是長度限制的。
內核為每個IPC對象維護了一個數據結構struct ipc_perm,該數據結構中有指向鏈表頭與鏈表尾部的指針,保證每一次插入取出都是O(1)的時間復雜度。
1. msgget
功能:創建或訪問一個消息隊列
原型:
#include <sys/types.h> #include <sys/ipc.h> #include <sys/msg.h> int msgget(key_t key, int msgflag);
參數:
key:某個消息隊列的名字,用ftok()產生,消息隊列為PIC資源,該key標識了此消息隊列,如果傳入key存在,則返回對應消息隊列ID,否則,創建並返回消息隊列ID。
msgflag:有兩個選項IPC_CREAT和IPC_EXCL,單獨使用IPC_CREAT,如果消息隊列不存在則創建之,如果存在則打開返回;單獨使用IPC_EXCL是沒有意義的;兩個同時使用,如果消息隊列不存在則創建之,如果存在則出錯返回。返回值:成功返回一個非負整數,即消息隊列的標識碼,失敗返回-1
2. msgctl
功能:消息隊列的控制函數原型:
#include <sys/types.h> #include <sys/ipc.h> #include <sys/msg.h> int msgctl(int msqid, int cmd, struct msqid_ds *buf);
參數:
msqid:由msgget函數返回的消息隊列標識碼
cmd:有三個可選的值,在此我們使用IPC_RMID
- IPC_STAT 把msqid_ds結構中的數據設置為消息隊列的當前關聯值
- IPC_SET 在進程有足夠權限的前提下,把消息隊列的當前關聯值設置為msqid_ds數據結構中給出的值
- IPC_RMID 刪除消息隊列
返回值:
成功返回0,失敗返回-13. msgsnd
功能:把一條消息添加到消息隊列中原型:
#include <sys/types.h> #include <sys/ipc.h> #include <sys/msg.h> int msgsnd(int msqid, const void *msgp, size_t msgsz, int msgflg);
參數:
msgid:由msgget函數返回的消息隊列標識碼
msgp:指針指向准備發送的消息
msgze:msgp指向的消息的長度(不包括消息類型的long int長整型)
msgflg:默認為0返回值:成功返回0,失敗返回-1
4. msgrcv
功能:是從一個消息隊列接受消息原型:
ssize_t msgrcv(int msqid, void *msgp, size_t msgsz, long msgtyp, int msgflg);參數:與msgsnd相同
返回值:成功返回實際放到接收緩沖區里去的字符個數,失敗返回-1
特點
- 與管道不同,消息隊列的生命周期隨內核,不會隨進程銷毀而銷毀,需要我們顯示的調用接口刪除或使用命令刪除。
- 消息隊列可以雙向通信。
- 克服了管道只能承載無格式字節流的缺點。
信號
關於信號
一個進程可以發送信號給另一個進程,一個信號就是一條消息,可以用於通知一個進程組發送了某種類型的事件,該進程組中的進程可以采取處理程序處理事件。
Linux下unistd.h
頭文件下定義了如圖中的常量,當你在shell命令行鍵入ctrl + c
時,內核就會前台進程組的每一個進程發送SIGINT
信號,中止進程。
我們可以看到上述只有30個信號,因此操作系統會為每一個進程維護一個int類型變量sig,利用其中30位代表是否有對應信號事件,每一個進程還有一個int類型變量block,與sig對應,其30位表示是否堵塞對應信號(不調用處理程序)。如果存在多個相同的信號同時到來,多余信號正常情況下會被存儲在一個等待隊列中等待。
我們要理解進程組是什么,每個進程屬於一個進程組,可以有多個進程屬於同一個組。每個進程擁有一個進程ID,稱為pid
,而每個進程組擁有一個進程組ID,稱為pgid
,默認情況下,一個進程與其子進程屬於同一進程組。
軟件方面(諸如檢測鍵盤輸入是硬件方面)可以利用kill函數發送信號,kill函數接受兩個參數,進程ID和信號類型,它將該信號類型發送到對應進程,如果該pid為0,那么會發送到屬於自身進程組的所有進程。
接收方可以采用signal函數給對應事件添加處理程序,一旦事件發生,如果未被堵塞,則調用該處理程序。
Linux下有一套完善的函數用以處理信號機制。
特點
- 信號是在軟件層次上對中斷機制的一種模擬,是一種異步通信方式。
- 信號可以直接進行用戶空間進程和內核進程之間的交互,內核進程也可以利用它來通知用戶空間進程發生了哪些系統事件。
- 如果該進程當前並未處於執行態,則該信號就由內核保存起來,直到該進程恢復執行再傳遞給它;如果一個信號被進程設置為阻塞,則該信號的傳遞被延遲,直到其阻塞被取消時才被傳遞給進程。
- 信號有明確生命周期,首先產生信號,然后內核存儲信號直到可以發送它,最后內核一旦有空閑,會適當處理信號。
- 處理程序是可以被另一個處理程序中斷的,因此這可能造成並發問題,所以在處理程序中的代碼應該是線程安全的,通常通過設置block位圖以堵塞所有信號。
套接字
Socket套接字是用與網絡中不同主機的通信方式,多用於客戶端與服務器之間,在Linux下也有一系列C語言函數,諸如socket、connect、bind、listen與accept,對於原理的學習,更好的是對Java中的套接字socket源碼進行剖析。
結語
對於工作而言,我們可能一輩子都用不上這些操作,但作為對於操作系統的學習,認識到進程間是如何通信還是很有必要的。
面試的時候對於這些方法我們不需要掌握到很深的程度,但我們必須要講的來有什么通信方式,這些方式都有什么特點,適用於什么條件,大致是如何操作的,能說出這些,基本足以讓面試官對你十分滿意了。