先說說阻塞,因為一個線程只能處理一個套接字的I/O事件,如果想同時處理多個,可以利用非阻塞忙輪詢的方式,偽代碼如下:
while true { for i in stream[] { if i has data read until unavailable } }
我們只要把所有流從頭到尾查詢一遍,就可以處理多個流了,但這樣做很不好,因為如果所有的流都沒有I/O事件,白白浪費CPU時間片。正如有一位科學家所說,計算機所有的問題都可以增加一個中間層來解決,同樣,為了避免這里cpu的空轉,我們不讓這個線程親自去檢查流中是否有事件,而是引進了一個代理(一開始是select,后來是poll),這個代理很牛,它可以同時觀察許多流的I/O事件,如果沒有事件,代理就阻塞,線程就不會挨個挨個去輪詢了,偽代碼如下:
但是依然有個問題,我們從select那里僅僅知道了,有I/O事件發生了,卻並不知道是哪那幾個流(可能有一個,多個,甚至全部),我們只能無差別輪詢所有流,找出能讀出數據,或者寫入數據的流,對他們進行操作。所以select具有O(n)的無差別輪詢復雜度,同時處理的流越多,無差別輪詢時間就越長。
epoll可以理解為event poll,不同於忙輪詢和無差別輪詢,epoll會把哪個流發生了怎樣的I/O事件通知我們。所以我們說epoll實際上是事件驅動(每個事件關聯上fd)的,此時我們對這些流的操作都是有意義的。(復雜度降低到了O(1))偽代碼如下:
while true
{
active_stream[] = epoll_wait(epollfd)
for i in active_stream[]
{
read or write till
}
}
可以看到,select和epoll最大的區別就是:select只是告訴你一定數目的流有事件了,至於哪個流有事件,還得你一個一個地去輪詢,而epoll會把發生的事件告訴你,通過發生的事件,就自然而然定位到哪個流了。不能不說epoll跟select相比,是質的飛躍,我覺得這也是一種犧牲空間,換取時間的思想,畢竟現在硬件越來越便宜了。