操作系統的IO模型

本文轉載自查看原文 2021-09-07 16:50 318 java

IO操作根據設備類型一般分為內存IO,網絡IO,和磁盤IO。其中內存IO的速度大大快於后兩者，計算機的性能瓶頸一般不在於內存IO. 盡管網絡IO可通過購買獨享帶寬和高速網卡來提升速度，可以使用RAID磁盤陣列來提升磁盤IO的速度，但是由於IO操作都是由系統內核調用來完成，而系統調用是通過cpu來調度的，而cpu的速度遠遠快於IO操作，導致會浪費cpu的寶貴時間來等待慢速的IO操作。為了讓cpu和慢速的IO設備更好的協調工作，減少CPU在IO調用上的消耗，逐漸發展出各種IO模型。

IO模型

IO步驟

I/O主要為：網絡IO（本質是socket文件讀取）、磁盤IO
每次IO，對於一次IO訪問，數據會先被拷貝到內核的緩沖區中，然后才會從內核的緩沖區拷貝到應用程序的地址空間。需要經歷兩個階段：

第一步：將數據從文件先加載至內核內存空間（緩沖區），等待數據准備完成，時間較長
第二步：將數據從內核緩沖區復制到用戶空間的進程的內存中，時間較短

阻塞/非阻塞和同步/異步

IO模型總是離不開阻塞/非阻塞、同步/異步這些概念。

阻塞/非阻塞：阻塞和非阻塞是對調用方線程狀態的描述，如果一次IO過程中，調用方線程需要阻塞線程等待數據的到達，那么說這次IO是阻塞式IO。
同步/異步：同步和異步是對調用方獲取數據方式的描述，如果調用方主動去查詢並復制數據，那么稱IO是同步的。如果是操作系統在數據准備完成(復制到用戶緩存區)之后告訴調用方有數據准備好了，那么稱IO是異步的。

IO模型分類

發起系統調用的是運行在系統上的某個應用的進程、對象是磁盤上的數據、獲取數據需要通過I/O、整個過程就是應用等待獲取磁盤數據。針對整個過程中應用進程的狀態不同，可以分為：同步阻塞型，同步非阻塞型，同步復用型，信號驅動型，異步。

同步阻塞型IO

類比：老李去火車站買票，排隊三天買到一張退票。耗費：在車站吃喝拉撒睡3天，其他事一件沒干。

同步阻塞IO模型是最簡單的IO模型，用戶線程在內核進行IO操作時被阻塞，等到數據讀取完成之后在繼續處理后續邏輯，其步驟如下所示（以read()接口為例）：

read(file, tmp_buf, len);

用戶程序需要讀取數據，調用read方法，把讀取數據的指令交給CPU執行。
CPU發出指令給DMA，告訴DMA需要讀取磁盤的哪些數據，然后返回，線程進入阻塞狀態
DMA向磁盤控制器發出IO請求，告訴磁盤控制器需要讀取哪些數據，然后返回；
磁盤控制器收到IO請求之后，把數據讀取到磁盤緩存區，當磁盤緩存讀取完成之后，中斷DMA；
DMA收到磁盤的中斷信號，將磁盤緩存區的數據讀取到PageCache緩存區，然后中斷CPU；
CPU響應DMA中斷信號，知道數據讀取完成，然后將PageCache緩存區中的數據讀取到用戶緩存中；
用戶程序從內存中讀取到數據，可以繼續執行后續邏輯。

file

同步阻塞IO的優缺點

優點：程序簡單，在阻塞等待數據期間進程/線程掛起，基本不會占用CPU資源。
缺點：每個連接需要獨立的進程/線程單獨處理，當並發請求量大時為了維護程序，內存、線程切換開銷較大，這種模型在實際生產中很少使用。

同步非阻塞型IO

類比：老李去火車站買票，隔12小時去火車站問有沒有退票，三天后買到一張票。耗費：往返車站6次，路上6小時，其他時間做了好多事。

非阻塞IO就是當調用方發起讀取數據申請時，如果內核數據沒有准備好會即刻告訴調用方，不需要調用方線程阻塞等待。

以recvfrom方法為例，調用方調用recvfrom讀取數據時，如果該緩沖區沒有數據的話，就會直接返回一個EWOULDBLOCK錯誤，不會讓應用一直等待中。在沒有數據的時候會即刻返回錯誤標識，那也意味着如果應用要讀取數據就需要不斷的調用recvfrom請求，直到讀取到它數據要的數據為止。其讀取步驟如下所示：

調用方調用recvfrom方法嘗試獲取數據；
如果recvfrom方法返回EWOULDBLOCK錯誤，執行步驟1；如果revifrom方法發現緩存區有數據，那么執行步驟3；
CPU將PageCache緩存區中的數據讀取到用戶緩存中；
用戶程序從內存中讀取到數據，可以繼續執行后續邏輯。

file

種方式在編程中對socket設置O_NONBLOCK即可。但此方式僅僅針對網絡IO有效，對磁盤IO並沒有作用。因為本地文件IO默認是阻塞，我們所說的網絡IO的阻塞是因為網路IO有無限阻塞的可能，而本地文件除非是被鎖住，否則是不可能無限阻塞的，因此只有鎖這種情況下，O_NONBLOCK才會有作用。而且，磁盤IO時要么數據在內核緩沖區中直接可以返回，要么需要調用物理設備去讀取，這時候進程的其他工作都需要等待。因此，后續的IO復用和信號驅動IO對文件IO也是沒有意義的。

IO復用模型

IO復用，也叫多路IO就緒通知。這是一種進程預先告知內核的能力，讓內核發現進程指定的一個或多個IO條件就緒了，就通知進程。使得一個進程能在一連串的事件上等待。IO復用的實現方式目前主要有select、poll和epoll。

select/poll

類比：老李去火車站買票，委托黃牛，然后每隔6小時電話黃牛詢問，黃牛三天內買到票，然后老李去火車站交錢領票。耗費：往返車站2次，路上2小時，黃牛手續費100元，打電話17次

select和poll的原理基本相同：

注冊待偵聽的fd(這里的fd創建時最好使用非阻塞)
每次調用都去檢查這些fd的狀態，當有一個或者多個fd就緒的時候返回
返回結果中包括已就緒和未就緒的fd

相比select，poll解決了單個進程能夠打開的文件描述符數量有限制這個問題：select受限於FD_SIZE的限制，如果修改則需要修改這個宏重新編譯內核；而poll通過一個pollfd數組向內核傳遞需要關注的事件，避開了文件描述符數量限制。

此外，select和poll共同具有的一個很大的缺點就是包含大量fd的數組被整體復制於用戶態和內核態地址空間之間，開銷會隨着fd數量增多而線性增大。

epoll

老李去火車站買票，委托黃牛，黃牛買到后即通知老李去領，然后老李去火車站交錢領票。耗費：往返車站2次，路上2小時，黃牛手續費100元，無需打電話

epoll是poll的一種改進：

基於事件驅動的方式，避免了每次都要把所有fd都掃描一遍。
epoll_wait只返回就緒的fd。
epoll使用nmap內存映射技術避免了內存復制的開銷。
epoll的fd數量上限是操作系統的最大文件句柄數目,這個數目一般和內存有關，通常遠大於1024。

目前，epoll是Linux2.6下最高效的IO復用方式，也是Nginx、Node的IO實現方式。而在freeBSD下，kqueue是另一種類似於epoll的IO復用方式。

此外，對於IO復用還有一個水平觸發和邊緣觸發的概念：

水平觸發：當就緒的fd未被用戶進程處理后，下一次查詢依舊會返回，這是select和poll的觸發方式。
邊緣觸發：無論就緒的fd是否被處理，下一次不再返回。理論上性能更高，但是實現相當復雜，並且任何意外的丟失事件都會造成請求處理錯誤。epoll默認使用水平觸發，通過相應選項可以使用邊緣觸發。

由於同步非阻塞方式需要不斷主動輪詢，輪詢占據了很大一部分過程，輪詢會消耗大量的CPU時間，而 “后台” 可能有多個任務在同時進行，人們就想到了循環查詢多個任務的完成狀態，只要有任何一個任務完成，就去處理它。如果輪詢不是進程的用戶態，而是有人幫忙就好了。那么這就是所謂的 “IO 多路復用”。UNIX/Linux 下的 select、poll、epoll 就是干這個的（epoll 比 poll、select 效率高，做的事情是一樣的）。

IO多路復用有兩個特別的系統調用select、poll、epoll函數。select調用是內核級別的，select輪詢相對非阻塞的輪詢的區別在於---前者可以等待多個socket，能實現同時對多個IO端口進行監聽，當其中任何一個socket的數據准好了，就能返回進行可讀，然后進程再進行recvform系統調用，將數據由內核拷貝到用戶進程，當然這個過程是阻塞的。select或poll調用之后，會阻塞進程，與blocking IO阻塞不同在於，此時的select不是等到socket數據全部到達再處理, 而是有了一部分數據就會調用用戶進程來處理。如何知道有一部分數據到達了呢？監視的事情交給了內核，內核負責數據到達的處理。也可以理解為"非阻塞"吧。

I/O復用模型會用到select、poll、epoll函數，這幾個函數也會使進程阻塞，但是和阻塞I/O所不同的的，這兩個函數可以同時阻塞多個I/O操作。而且可以同時對多個讀操作，多個寫操作的I/O函數進行檢測，直到有數據可讀或可寫時（注意不是全部數據可讀或可寫），才真正調用I/O操作函數。

對於多路復用，也就是輪詢多個socket。多路復用既然可以處理多個IO，也就帶來了新的問題，多個IO之間的順序變得不確定了，當然也可以針對不同的編號。具體流程，如下圖所示：

信號驅動模型

類比：老李去火車站買票，給售票員留下電話，有票后，售票員電話通知老李，然后老李去火車站交錢領票。耗費：往返車站2次，路上2小時，免黃牛費100元，無需打電話

信號驅動IO模型，應用進程告訴內核：當數據報准備好的時候，給我發送一個信號，對SIGIO信號進行捕捉，並且調用我的信號處理函數來獲取數據報。流程如下：

開啟套接字信號驅動IO功能；
系統調用sigaction執行信號處理函數（非阻塞，立刻返回），告訴系統數據就緒式調用哪個函數；
數據就緒，生成sigio信號，通過信號回調通知應用來讀取數據。

此種io方式存在的一個很大的問題：Linux中信號隊列是有限制的，如果超過這個數字問題就無法讀取數據。

Linux信號的處理：如果這個進程正在用戶態忙着做別的事（例如在計算兩個矩陣的乘積），那就強行打斷之，調用事先注冊的信號處理函數，這個函數可以決定何時以及如何處理這個異步任務。由於信號處理函數是突然闖進來的，因此跟中斷處理程序一樣，有很多事情是不能做的，因此保險起見，一般是把事件 “登記” 一下放進隊列，然后返回該進程原來在做的事。
如果這個進程正在內核態忙着做別的事，例如以同步阻塞方式讀寫磁盤，那就只好把這個通知掛起來了，等到內核態的事情忙完了，快要回到用戶態的時候，再觸發信號通知。
如果這個進程現在被掛起了，例如無事可做 sleep 了，那就把這個進程喚醒，下次有 CPU 空閑的時候，就會調度到這個進程，觸發信號通知。

異步 API 說來輕巧，做來難，這主要是對 API 的實現者而言的。Linux 的異步 IO（AIO）支持是 2.6.22 才引入的，還有很多系統調用不支持異步 IO。Linux 的異步 IO 最初是為數據庫設計的，因此通過異步 IO 的讀寫操作不會被緩存或緩沖，這就無法利用操作系統的緩存與緩沖機制。

很多人把 Linux 的 O_NONBLOCK 認為是異步方式，但事實上這是前面講的同步非阻塞方式。需要指出的是，雖然 Linux 上的 IO API 略顯粗糙，但每種編程框架都有封裝好的異步 IO 實現。操作系統少做事，把更多的自由留給用戶，正是 UNIX 的設計哲學，也是 Linux 上編程框架百花齊放的一個原因。

從前面 IO 模型的分類中，我們可以看出 AIO 的動機：

同步阻塞模型需要在 IO 操作開始時阻塞應用程序。這意味着不可能同時重疊進行處理和 IO 操作。
同步非阻塞模型允許處理和 IO 操作重疊進行，但是這需要應用程序根據重現的規則來檢查 IO 操作的狀態。
這樣就剩下異步非阻塞 IO 了，它允許處理和 IO 操作重疊進行，包括 IO 操作完成的通知。

異步IO

類比：老李去火車站買票，給售票員留下電話，有票后，售票員電話通知老李並快遞送票上門。耗費：往返車站1次，路上1小時，免黃牛費100元，無需打電話

當應用程序調用aio_read時，內核一方面去取數據報內容返回，另一方面將程序控制權還給應用進程，應用進程繼續處理其他事情，是一種非阻塞的狀態。

當內核中有數據報就緒時，由內核將數據報拷貝到應用程序中，返回aio_read中定義好的函數處理程序。

很少有Linux系統支持，Windows的IOCP就是該模型。可以看出，阻塞程度：阻塞IO>非阻塞IO>多路轉接IO>信號驅動IO>異步IO，效率是由低到高的。

歡迎關注御狐神的微信公眾號
file

參考文檔

IO和零拷貝
 異步IO、epoll、零拷貝
 IO概念和五種IO模型

本文最先發布至微信公眾號，版權所有，禁止轉載！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 操作系統-IO管理和磁盤調度操作系統---IO權限管理和敏感指令操作系統系列操作系統加固操作系統簡史操作系統權限操作系統的概念操作系統之引導 Linux操作系統操作系統-線程