IO模型一共有5種:
blocking IO #阻塞IO
nonblocking IO #非阻塞IO
IO myltiplexing #IO多路復用
signal driven IO #信號驅動IO
asynchronous IO #異步IO
由於signal driven IO在實際中並不常用,這里只看剩下的四種IO Model。
當操作系統里發生一個IO的讀操作時,會涉及到系統中的兩個對象,一個是調用這個IO的process(或者thread),另一個就是系統內核(kernel)。
發生這個read讀操作時,在系統中通常會經歷兩個階段:
等待接收數據階段(waiting for data to be ready)
將數據從內核拷貝到進程中(copying data from kernel to process)
各種IO模型的區別就是這兩個階段中的不同操作。
1.blocking IO(阻塞IO)
默認情況下,所有的socket都是blocking。
其典型的IO讀操作流程圖如下:
當用戶進程調用了recvfrom這個系統調用,kernel就開始IO第一個階段:准備數據。
對於network IO來說,在還沒有收到一個完整的數據包的時候,kernel就要等待足夠的數據到來。
在用戶進程這邊,整個進程會被阻塞。當kernel將數據准備好了,進程就會將數據從kernel空間拷貝到用戶內存中。
然后kernel返回執行結果,用戶進程才解除block狀態,重新運行起來。
所以,blocking IO的特點就是在IO執行的兩個階段都被block了。
2.non-blocking IO(非阻塞IO)
linux中,可以通過設置socket使其變為non-blocking。
當對一個nonblocking socket執行讀操作時,其典型流程圖如下:
當用戶進程發出read操作時,kernel沒有准備好的時候,系統並不會block用戶進程,而是立刻返回一個error。
對用戶來說,發起一個read操作后,並不需要等待,而是馬上就得到了一個結果。
用戶進程發現返回結果是一個error時,用戶進程就知道kernel數據還沒有准備好,於是用戶進程就可以再次發送read操作。
等到kernel中的數據准備好了,並且又再次收到了用戶進程的系統調用(system call),recvfrom就馬上將數據拷貝到用戶內存,然后返回。
在這段時間內,進程是被block的。所以用戶進程需要不斷的主動詢問kernel數據好了沒有。
在網絡IO時候,非阻塞IO也會進行recvfrom的系統調用,檢查數據是否准備好。
與阻塞IO不一樣,非阻塞IO將大的整片時間的阻塞分成多個小的阻塞,所以非阻塞IO的recvfrom被系統調用之后,進程並沒有被阻塞,內核返回信息給用戶進程。
如果數據沒准備好,返回信息就為error。進程在返回之后,可以執行別的任務,然后再發起recvfrom系統調用。
重復上面的過程,循環往復的進行recvfrom系統調用,這個過程通常稱為輪詢。
輪詢檢查內核數據是否准備好,等到數據准備好,再拷貝數據到進程,由進程對數據進行處理。
拷貝整個數據的過程,進程仍然是屬於阻塞的狀態。
非阻塞IO的優點:
能夠在等待任務完成的時間里執行其他任務
非阻塞IO的缺點:
每過一段時間輪詢一次,而任務可能在兩次輪詢之間的任意時間完成了,所以任務完成的響應延遲增大了,也會導致整體數據吞里吐量的降低。
3.IO multiplexing(IO多路復用)
IO multiplexing也可以稱作select或者epoll。
其好處就在於單個process就可以同時處理多個網絡連接的IO。
其基本有原理就是select/epoll這個function會不斷的輪詢所負責的所有socket。
當某個socket有數據到達了,就通知用戶進程處理。
其典型流程圖如下:
當用戶進程調用了select,那么整個進程會被block,同時,kernel會“監視”所有select負責的socket。
當任何一個socket中的數據准備好了,select就會返回。這個時候用戶進程再調用read操作,將數據從kernel拷貝到用戶進程。
IO multiplexing和blocking IO其實並沒有太大的不同,因為IO mmultiplexing需要使用兩個system call(select和recvfrom);
而blocking IO只需要一個system call。select/epoll的優勢並不是對於單個連接能處理得更快,而是在於能處理更多的連接。
如果處理的連接數不是很高的話,使用select/epoll的服務端不一定比使用multithreading+blocking IO的服務端性能更好,可能延遲還更大。
在IO multiplexing模型中,實際中,對於每一個socket,一般都設置成non-blocking。但是,整個用戶的process其實是一直被block的。
只不過process是被select這個函數block,而不是被socket IO給block的。
4.Asynchronous IO(異步IO)
異步模型的流程圖如下:
用戶進程發起read操作后,立刻就可以開始去做其它的事。
而另一方面,從kernel的角度,當它受到一個異步讀取操作之后,首先評它會立刻返回,所以不會對用戶進程產生任何阻塞。
然后,kernel會等待數據准備完成。然后將數據拷貝到用戶內存,拷貝完成后,kernel會給用戶進程發送一個signal,交由用戶進程操作。
5.IO模塊比較分析
blocking與non-blocking的區別在於:
blocking IO會一直阻塞用戶進程直到操作完成,
non-blocking IO在kernel還准備數據的情況下會立刻返回,執行別的操作,直到kernel給出數據已准備好的信號,再執行這個操作。
synchronous IO和asynchronous IO的區別就在於:
synchronous IO做IO操作的時候會將process阻塞。
按照這個說法,之前所述的blocking IO,non-blocking IO,IO multiplexing都屬於synchronous IO。
而asynchronous IO則不一樣,當進程發起IO 操作之后,就不管了。
直到kernel發送一個信號,告訴進程說IO完成。在這整個過程中,進程完全沒有被block。
各個IO Model的比較如圖所示:
經過上面的介紹,會發現non-blocking IO和asynchronous IO的區別還是很明顯的。
在non-blocking IO中,雖然進程大部分時間都不會被block,
但是它仍然要求進程去主動的check,並且當數據准備完成以后,也需要進程主動的再次調用recvfrom來將數據拷貝到用戶內存。
而asynchronous IO則完全不同。它是用戶進程將整個IO操作交給kernel操作,然后kernel操作完成后發信號通知用戶進程。
在此期間,用戶進程不需要去檢查IO操作的狀態,也不需要主動的去拷貝數據。