沒搞清楚網絡I/O模型？那怎么入門Netty

本文轉載自查看原文 2021-01-18 14:54 647 Netty

微信搜索【阿丸筆記】，關注Java/MySQL/中間件各系列原創實戰筆記，干貨滿滿。

本文是Netty系列筆記第二篇

Netty是網絡應用框架，所以從最本質的角度來看，是對網絡I/O模型的封裝使用。

因此，要深刻理解Netty的高性能，也必須從網絡I/O模型說起。

看完本文，可以回答這三個問題：

五種I/O模型是什么？核心區別在哪里？
同步=阻塞？異步=非阻塞？
Netty的高性能，是采用了哪種I/O模型？

1.掌握五種I/O模型的關鍵鑰匙

Unix系統下的五種基本I/O模型大家應該都有所耳聞，分為：

blocking I/O（同步阻塞IO,BIO）
nonblocking I/O(同步非阻塞IO，NIO)
I/O multiplexing (I/O多路復用)
signal driven I/O（信號驅動I/O）
asynchronous I/O（異步I/O，AIO）

每種I/O的特性如何，尤其是同步/非同步、阻塞/非阻塞的區別，其實很多人並不能准確地進行區分。

所以，我們先把最核心的“鑰匙”告訴大家，帶着這把“鑰匙”再來看I/O模型的關鍵問題，就能手到擒來了。

當一次網絡IO發生時，主要涉及到三個對象：

發起此次IO操作的Process或者Application
系統內核kernel。用戶進程無法直接操作I/O設備，必須通過系統內核kernel與I/O設備交互。
I/O設備，包括網絡、磁盤等。本文主要針對網絡。

真正的I/O過程，主要分為兩個階段：

等待數據准備階段。
數據拷貝階段。數據准備完畢，從內核kernel拷貝到進程process中

以一個socket上的輸入操作為例。

第一步通常涉及等待數據從網絡中到達。當所等待分組到達時，它被復制到內核中的某個緩沖區。

第二步就是把數據從內核緩沖區復制到用戶態緩沖區。

這里，我們先記住這兩個階段，所有I/O模型的區別就在它們身上。

2.五種I/O模型詳解

2.1 同步阻塞I/O, BIO

我們一般使用最多的，最基礎的I/O模型就是同步阻塞I/O。

典型應用：
阻塞socket、Java BIO

我們來解讀一下BIO的過程：

應用進程向內核發起 I/O 請求，發起調用的線程一直阻塞，等待內核返回結果。
數據准備完畢，從內核kernel拷貝到用戶態內存（仍舊阻塞），然后kernel返回結果，用戶進程process結束阻塞，重新運行。

“關鍵鑰匙”分析：
BIO的特點就是在IO執行的兩個階段都被阻塞了。

所以，我們日常使用BIO模型的時候，提高性能的方式，就是采用多線程。

在一般的場景中，多線程模型下的BIO是成本較低、收益較高的方式。但是，如果在高並發的場景下，過多的創建線程，會嚴重占據系統資源，降低系統對外界響應效率。

那是不是可以考慮使用“線程池”或者“連接池”呢？

一定程度上可以。 “池化”的目的在於減少創建和銷毀線程的頻率，讓空閑的線程重新承擔新的執行任務，維持一個合理的線程數量，可以很好的降低系統開銷。

但是，“池化”技術只能一定程度上緩解了頻繁調用IO接口帶來的資源占用。如果“池”上限100，而我們需要1000的IO，那並不能解決性能問題，這是由於BIO模型本身的限制決定的。

所以，需要非阻塞I/O來嘗試解決這個問題。

2.2 同步非阻塞I/O, NIO

BIO的阻塞問題，讓我們考慮使用非阻塞的NIO模型。

典型應用：
socket的非阻塞模式

應用進程向內核發起 I/O 請求后，如果kernel中的數據還沒有准備好，不再會“阻塞”等待結果，而是會立即返回。

從用戶進程角度講，它發起一個IO操作后，並不需要等待，而是馬上就得到了一個結果。

用戶進程判斷結果是一個error時，它就知道數據還沒有准備好，於是它開始發起輪訓操作。

直到kernel中的數據准備好了，一旦用戶再輪訓過來，就馬上將數據拷貝到了用戶內存，然后返回。

所以，在非阻塞式IO中，用戶進程其實是需要不斷地主動詢問kernel數據准備好了沒有。

“關鍵鑰匙”分析：

非阻塞NIO模型相比於BIO的顯著差異在於，在“數據等待”階段，不再“阻塞”，立即返回。

但是在“數據拷貝”階段，仍然是“阻塞”的。

雖然非阻塞模型避免了“數據等待”階段的阻塞，但是，采用輪詢方式，會導致系統上下文切換開銷很大，會大幅度推高CPU 占用率。

因此，單獨使用非阻塞 I/O 模型的效率並不高。而且隨着並發量的提升，非阻塞 I/O 會存在嚴重的性能浪費。

我們可以看到，輪訓的目的只是檢測“數據是否已經就緒”，而操作系統提供了更為高效的檢測接口，

例如select()多路復用模式，可以一次檢測多個連接是否活躍。

2.3 多路復用IO

多路復用實現了一個線程處理多個 I/O 句柄的操作，有些地方也稱這種IO方式為事件驅動IO(event driven IO)。

多路指的是多個數據通道
復用指的是使用一個或多個固定線程來處理每一個 Socket。

典型應用：
select、poll、epoll三種方案
Java NIO

多個的進程的IO可以注冊到一個復用器（selector）上，然后用一個進程調用select，select會監聽所有注冊進來的IO。

如果selector所有監聽的IO在內核緩沖區都沒有可讀數據，select調用進程會被阻塞；同時，kernel會“監視”所有select負責的socket，如果任何一個socket中的數據准備好了，select就會返回；

然后select調用進程可以自己或通知另外的進程（注冊進程）來再次發起讀取IO，然后process將數據從kernel拷貝到用戶進程，讀取內核中准備好的數據。

可以看到，多個進程注冊IO后，只有一個select調用進程被阻塞。

多路復用解決了同步阻塞 I/O 和同步非阻塞 I/O 的問題，是一種非常高效的 I/O 模型。我們可以直觀看到，這個模型的好處在於單個process就可以同時處理多個網絡連接的IO。

“關鍵鑰匙”分析：

多路復用I/O，select階段，對於多路socket的“數據等待”階段而言，是“非阻塞”。

對單個socket的“數據拷貝”階段，也是“阻塞”。

這里需要特別注意！！！！

其實如果處理的IO數不多的情況下，使用多路復用IO的web server不一定比使用池化+BIO 的web server性能更好，可能延遲還更大。
考慮極端情況下，只有一個IO，多路復用需要 2 次系統調用（select + recvfrom），而BIO只需要 1 次系統調用（recvfrom）。

所以，多路復用IO的優勢並不是對於單個連接能處理得更快，而是在於能處理更多的連接。

2.4 信號驅動I/O

在使用信號驅動 I/O 時，當數據准備就緒后，內核通過發送一個 SIGIO 信號通知應用進程，應用進程就可以開始讀取數據了。

信號驅動I/O模型的最大特點，就是不需要process進程不斷輪訓內核是否已經准備就緒。

“關鍵鑰匙”分析：

信號驅動I/O在"數據等待"階段“非阻塞”。

當數據准備完成后，信號通知process，process開始“數據拷貝”階段，這里仍然是“阻塞”的。

信號驅動 I/O 有幾個缺陷：
1）在大量 IO 操作時可能會因為信號隊列溢出導致沒法通知。

2）信號驅動 I/O 盡管對於處理 UDP 套接字來說有用，信號通知意味着到達一個數據報，或者返回一個異步錯誤。
但是，對於 TCP 而言，信號驅動的 I/O 方式不太好用。因為導致信號通知的情況有非常多種，每一個來進行判別會消耗很大資源。

所以信號驅動I/O模式用得非常少。
而且尤其需要注意，在“數據拷貝”階段，它仍然是“阻塞”的。

2.5 異步I/O，AIO

真正的異步I/O，就是AIO。

典型應用：
JAVA7 AIO、高性能服務器

根據前面四個模型的分析，相信大家已經能明顯看懂這個模型的運行方式了。

用戶進程發起I/O請求后，立刻就可以開始去做其它的事。而另一方面，從kernel的角度，當它收到一個請求之后，首先它會立刻返回，所以不會對用戶進程產生任何block。然后，kernel會等待數據准備完成，然后將數據拷貝到用戶內存，當這一切都完成之后，kernel會給用戶進程發送一個signal，告訴它I/O操作完成了。

AIO最重要的一點是從內核緩沖區拷貝數據到用戶態緩沖區的過程也是由系統異步完成，應用進程只需要在指定的數組中引用數據即可。

AIO 與信號驅動 I/O 的主要區別：
信號驅動 I/O 由內核通知何時可以開始一個 I/O 操作，而異步 I/O 由內核通知 I/O 操作何時已經完成。

“關鍵鑰匙”分析：

"數據等待"階段，非阻塞

"數據拷貝”階段，非阻塞

AIO是真正的異步模型，它不會對請求進程產生任何的阻塞。

3. 同步=阻塞？異步=非阻塞？

日常使用過程中，我們往往把同步I/O 等同於阻塞I/O，異步I/O 等同於非阻塞I/O。
實際上，嚴格意義來說，這兩組概念還是有很大的區別的。

3.1 阻塞I/O 與非阻塞I/O

阻塞與非阻塞的區別比較明顯，也很好理解。

結合I/O模型來說，阻塞I/O會一直block對應的進程直到操作完成，而非阻塞 IO在kernel 在"等待數據准備"階段會立刻返回。

所以我們一般認為，阻塞I/O只有BIO，另外四個模型都是屬於非阻塞I/O。

3.2 同步I/O 與異步I/O

先來看看同步I/O 和異步I/O 的定義是什么，根據POSIX的定義：

同步I/O : A synchronous I/O operation causes the requesting process to be blocked until that I/O operation completes;
異步I/O : An asynchronous I/O operation does not cause the requesting process to be blocked;

兩者的區別就在於同步I/O做 "IO operation”的時候會將process阻塞。

那么按照這個定義，我們看看前面每個模型的“關鍵鑰匙”分析部分，可以明顯看到，BIO，NIO，IO多路復用、信號驅動IO 四種模型都屬於同步IO。

因為它們在IO的第二階段，真正執行“數據拷貝”的階段，都是“阻塞”的。以NIO為例，在執行recvfrom這個系統調用的時候，如果kernel的數據沒有准備好，這時候不會block進程。但是當kernel中數據准備好的時候，recvfrom會將數據從kernel拷貝到用戶內存中，這個時候進程是被block了。

同理，信號驅動IO，當內核中IO數據就緒時以SIGIO信號通知請求進程，請求進程再把數據從內核讀入到用戶空間，這一步也是阻塞的。

所以，真正的異步I/O只有一個，就是AIO。當進程發起IO操作之后，就直接返回再也不管了，直到kernel發送一個信號，告訴進程說IO完成。在這整個過程中，進程完全沒有被阻塞。如定義所說，不會因為IO操作阻塞。

4. Netty采用了哪種I/O模型呢？

Netty 的 I/O 模型是基於非阻塞 I/O 實現的，底層依賴的是 JDK NIO 框架的多路復用器 Selector。

一個多路復用器 Selector 可以同時輪詢多個 Channel，采用 epoll 模式后，只需要一個線程負責 Selector 的輪詢，就可以接入成千上萬的客戶端。

更具體的實現方式和模型，我們下一期再展開說明。

對了，一定有同學想問，Netty為什么不采用AIO呢？

因為 AIO 的目的是希望 I/O 線程不阻塞主線程，屬於異步 I/O，由內核通知 I/O 操作何時完成。AIO 適用於連接數多的且需要長時間連接的場景。

對於AIO來說，目前操作系統支持程度有限且實現起來復雜。

Netty也嘗試過AIO，但是效果不是很理想，最終廢棄了。

參考書目：
《UNIX Network Programming(Volume1,3rd)》

都看到最后了，原創不易，點個關注，點個贊吧～

文章持續更新，可以微信搜索「阿丸筆記」第一時間閱讀，回復【筆記】獲取Canal、MySQL、HBase、JAVA實戰筆記，回復【資料】獲取一線大廠面試資料。

知識碎片重新梳理，構建Java知識圖譜： github.com/saigu/JavaK…（歷史文章查閱非常方便）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 從網絡I/O模型到Netty，先深入了解下I/O多路復用徹底搞清楚python字符編碼你必須搞清楚的String，StringBuilder，StringBuffer Flex屬性你真的搞清楚了嗎？我深表懷疑一次性搞清楚equals和hashCode ftp安裝和虛擬用戶創建（終於搞清楚了）徹底搞清楚DOM元素的height,offsetHeight,clientHeight,scrollHeight 關於 Windows 下 Qt 開發，這個問題必須要搞清楚！為了搞清楚類加載，竟然手擼JVM！搞清楚MySQL事務隔離級別