1.I/O基礎知識
1.1 什么是文件描述符?
在網絡中,一個socket對象就是1個文件描述符,在文件中,1個文件句柄(即file對象)就是1個文件描述符。其實可以理解為就是一個“指針”或“句柄”,指向1個socket或file對象,當file或socket發生改變時,這個對象對應的文件描述符,也會發生相應改變。
1.2 什么是I/O
1、先了解什么是I/O?
I/O(input/output),即輸入/輸出。操作系統會對IO設備進行編址,IO設備用操作系統分配的地址來處理自己的輸入輸出信息。
2、常用的I/O模型
阻塞IO:blocking IO、非阻塞IO:non-blocking IO、同步IO:synchronous IO、異步IO:asynchronous IO
3、IO發生時涉及的對象和步驟。對於一個network IO (這里我們以read舉例),它會涉及到兩個系統對象,一個是調用這個IO的process(or thread),另一個就是系統內核(kernel)。當一個read操作發生 時,它會經歷兩個階段:
(1)等待數據准備 (Waiting for the data to be ready)----內核等待數據可讀
(2)將數據從內核拷貝到進程中 (Copying the data from the kernel to the process)----將內核讀到的數據拷貝到進程
記住這兩點很重要,因為這些IO Model的區別就是在兩個階段上各有不同的情況。
1.3 I/O操作包括哪些?
- 網絡操作,即建立socket對象,進行建立連接,發送、接收、處理請求、響應等
- 文件操作,即建立file對象,進行文件的讀、寫操作
- 終端操作。即進行交互式輸入輸出等操作
注意:對於windows只支持Socket操作;其他系統支持以上三種I/O操作,但是無法檢測普通文件操作,即自動讀取普通文件,監測文件是否發現變化。
2.網絡IO模型介紹
服務器端編程經常需要構造高性能的IO模型,常見的IO模型有四種:

如圖1所示,用戶線程通過系統調用read發起IO讀操作,由用戶空間轉到內核空間。內核等到數據包到達后,然后將接收的數據拷貝到用戶空間,完成read操作。
用戶線程使用同步阻塞IO模型的偽代碼描述為:
{
read(socket, buffer);
process(buffer);
}
即用戶需要等待read將socket中的數據讀取到buffer后,才繼續處理接收的數據。整個IO請求的過程中,用戶線程是被阻塞的,這導致用戶在發起IO請求時,不能做任何事情,對CPU的資源利用率不夠。

如圖2所示,由於socket是非阻塞的方式,因此用戶線程發起IO請求時立即返回。但並未讀取到任何數據,用戶線程需要不斷地發起IO請求,直到數據到達后,才真正讀取到數據,繼續執行。
用戶線程使用同步非阻塞IO模型的偽代碼描述為:
{ while(read(socket, buffer) != SUCCESS) ; process(buffer); }

如圖3所示,用戶首先將需要進行IO操作的socket添加到select中,然后阻塞等待select系統調用返回。當數據到達時,socket被激活,select函數返回。用戶線程正式發起read請求,讀取數據並繼續執行。
從流程上來看,使用select函數進行IO請求和同步阻塞模型沒有太大的區別,甚至還多了添加監視socket,以及調用select函數的額外操作,效率更差。但是,使用select以后最大的優勢是用戶可以在一個線程內同時處理多個socket的IO請求。用戶可以注冊多個socket,然后不斷地調用select讀取被激活的socket,即可達到在同一個線程內同時處理多個IO請求的目的。而在同步阻塞模型中,必須通過多線程的方式才能達到這個目的。
用戶線程使用select函數的偽代碼描述為:
{ select(socket); while(1) { sockets = select(); for(socket in sockets) { if(can_read(socket)) { read(socket, buffer); process(buffer); } } } }
其中while循環前將socket添加到select監視中,然后在while內一直調用select獲取被激活的socket,一旦socket可讀,便調用read函數將socket中的數據讀取出來。
然而,使用select函數的優點並不僅限於此。雖然上述方式允許單線程內處理多個IO請求,但是每個IO請求的過程還是阻塞的(在select函數上阻塞),平均時間甚至比同步阻塞IO模型還要長。如果用戶線程只注冊自己感興趣的socket或者IO請求,然后去做自己的事情,等到數據到來時再進行處理,則可以提高CPU的利用率。
IO多路復用模型使用了Reactor設計模式實現了這一機制。


如圖5所示,通過Reactor的方式,可以將用戶線程輪詢IO操作狀態的工作統一交給handle_events事件循環進行處理。用戶線程注冊事件處理器之后可以繼續執行做其他的工作(異步),而Reactor線程負責調用內核的select函數檢查socket狀態。當有socket被激活時,則通知相應的用戶線程(或執行用戶線程的回調函數),執行handle_event進行數據讀取、處理的工作。由於select函數是阻塞的,因此多路IO復用模型也被稱為異步阻塞IO模型。注意,這里的所說的阻塞是指select函數執行時線程被阻塞,而不是指socket。一般在使用IO多路復用模型時,socket都是設置為NONBLOCK的,不過這並不會產生影響,因為用戶發起IO請求時,數據已經到達了,用戶線程一定不會被阻塞。
用戶線程使用IO多路復用模型的偽代碼描述為:
void UserEventHandler::handle_event() { if(can_read(socket)) { read(socket, buffer); process(buffer); } } { Reactor.register(new UserEventHandler(socket)); }
用戶需要重寫EventHandler的handle_event函數進行讀取數據、處理數據的工作,用戶線程只需要將自己的EventHandler注冊到Reactor即可。Reactor中handle_events事件循環的偽代碼大致如下。
Reactor::handle_events() { while(1) { sockets = select(); for(socket in sockets) { get_event_handler(socket).handle_event(); } } }
事件循環不斷地調用select獲取被激活的socket,然后根據獲取socket對應的EventHandler,執行器handle_event函數即可。
IO多路復用是最常使用的IO模型,但是其異步程度還不夠“徹底”,因為它使用了會阻塞線程的select系統調用。因此IO多路復用只能稱為異步阻塞IO,而非真正的異步IO。
“真正”的異步IO需要操作系統更強的支持。在IO多路復用模型中,事件循環將文件句柄的狀態事件通知給用戶線程,由用戶線程自行讀取數據、處理數據。而在異步IO模型中,當用戶線程收到通知時,數據已經被內核讀取完畢,並放在了用戶線程指定的緩沖區內,內核在IO完成后通知用戶線程直接使用即可。
異步IO模型使用了Proactor設計模式實現了這一機制。
如圖6,Proactor模式和Reactor模式在結構上比較相似,不過在用戶(Client)使用方式上差別較大。Reactor模式中,用戶線程通過向Reactor對象注冊感興趣的事件監聽,然后事件觸發時調用事件處理函數。而Proactor模式中,用戶線程將AsynchronousOperation(讀/寫等)、Proactor以及操作完成時的CompletionHandler注冊到AsynchronousOperationProcessor。AsynchronousOperationProcessor使用Facade模式提供了一組異步操作API(讀/寫等)供用戶使用,當用戶線程調用異步API后,便繼續執行自己的任務。AsynchronousOperationProcessor 會開啟獨立的內核線程執行異步操作,實現真正的異步。當異步IO操作完成時,AsynchronousOperationProcessor將用戶線程與AsynchronousOperation一起注冊的Proactor和CompletionHandler取出,然后將CompletionHandler與IO操作的結果數據一起轉發給Proactor,Proactor負責回調每一個異步操作的事件完成處理函數handle_event。雖然Proactor模式中每個異步操作都可以綁定一個Proactor對象,但是一般在操作系統中,Proactor被實現為Singleton模式,以便於集中化分發操作完成事件。
如圖7所示,異步IO模型中,用戶線程直接使用內核提供的異步IO API發起read請求,且發起后立即返回,繼續執行用戶線程代碼。不過此時用戶線程已經將調用的AsynchronousOperation和CompletionHandler注冊到內核,然后操作系統開啟獨立的內核線程去處理IO操作。當read請求的數據到達時,由內核負責讀取socket中的數據,並寫入用戶指定的緩沖區中。最后內核將read的數據和用戶線程注冊的CompletionHandler分發給內部Proactor,Proactor將IO完成的信息通知給用戶線程(一般通過調用用戶線程注冊的完成事件處理函數),完成異步IO。
用戶線程使用異步IO模型的偽代碼描述為:
void UserCompletionHandler::handle_event(buffer) {
process(buffer);
}
{
aio_read(socket, new UserCompletionHandler);
}
用戶需要重寫CompletionHandler的handle_event函數進行處理數據的工作,參數buffer表示Proactor已經准備好的數據,用戶線程直接調用內核提供的異步IO API,並將重寫的CompletionHandler注冊即可。
相比於IO多路復用模型,異步IO並不十分常用,不少高性能並發服務程序使用IO多路復用模型+多線程任務處理的架構基本可以滿足需求。況且目前操作系統對異步IO的支持並非特別完善,更多的是采用IO多路復用模型模擬異步IO的方式(IO事件觸發時不直接通知用戶線程,而是將數據讀寫完畢后放到用戶指定的緩沖區中)。Java7之后已經支持了異步IO,感興趣的讀者可以嘗試使用。
本文從基本概念、工作流程和代碼示例三個層次簡要描述了常見的四種高性能IO模型的結構和原理,理清了同步、異步、阻塞、非阻塞這些容易混淆的概念。通過對高性能IO模型的理解,可以在服務端程序的開發中選擇更符合實際業務特點的IO模型,提高服務質量。希望本文對你有所幫助。
參考資料:
http://blog.csdn.net/historyasamirror/article/details/5778378
http://www.cnblogs.com/fanzhidongyzby/p/4098546.html