簡介
終於要寫到java中最最讓人激動的部分了IO和NIO。IO的全稱是input output,是java程序跟外部世界交流的橋梁,IO指的是java.io包中的所有類,他們是從java1.0開始就存在的。NIO叫做new IO,是在java1.4中引入的新一代IO。
IO的本質是什么呢?它和NIO有什么區別呢?我們該怎么學習IO和NIO呢?
別急,看完這篇文章一切都有答案。
更多內容請訪問www.flydean.com
IO的本質
IO的作用就是從外部系統讀取數據到java程序中,或者把java程序中輸出的數據寫回到外部系統。這里的外部系統可能是磁盤,網絡流等等。
因為對所有的外部數據的處理都是由操作系統內核來實現的,對於java應用程序來說,只是調用操作系統中相應的接口方法,從而和外部數據進行交互。
所有IO的本質就是對Buffer的處理,我們把數據放入Buffer供系統寫入外部數據,或者從系統Buffer中讀取從外部系統中讀取的數據。如下圖所示:
用戶空間也就是我們自己的java程序有一個Buffer,系統空間也有一個buffer。所以會出現系統空間緩存數據的情況,這種情況下系統空間將會直接返回Buffer中的數據,提升讀取速度。
DMA和虛擬地址空間
在繼續講解之前,我們先講解兩個操作系統中的基本概念,方便后面我們對IO的理解。
現代操作系統都有一個叫做DMA(Direct memory access)的組件。這個組件是做什么的呢?
一般來說對內存的讀寫都是要交給CPU來完成的,在沒有DMA的情況下,如果程序進行IO操作,那么所有的CPU時間都會被占用,CPU沒法去響應其他的任務,只能等待IO執行完成。這在現代應用程序中是無法想象的。
如果使用DMA,則CPU可以把IO操作轉交給其他的操作系統組件,比如數據管理器來操作,只有當數據管理器操作完畢之后,才會通知CPU該IO操作完成。現代操作系統基本上都實現了DMA。
虛擬地址空間也叫做(Virtual address space),為了不同程序的互相隔離和保證程序中地址的確定性,現代計算機系統引入了虛擬地址空間的概念。簡單點講可以看做是跟實際物理地址的映射,通過使用分段或者分頁的技術,將實際的物理地址映射到虛擬地址空間。
對於上面的IO的基本流程圖中,我們可以將系統空間的buffer和用戶空間的buffer同時映射到虛擬地址空間的同一個地方。這樣就省略了從系統空間拷貝到用戶空間的步驟。速度會更快。
同時為了解決虛擬空間比物理內存空間大的問題,現代計算機技術一般都是用了分頁技術。
分頁技術就是將虛擬空間分為很多個page,只有在需要用到的時候才為該page分配到物理內存的映射,這樣物理內存實際上可以看做虛擬空間地址的緩存。
虛擬空間地址分頁對IO的影響就在於,IO的操作也是基於page來的。
比較常用的page大小有:1,024, 2,048, 和 4,096 bytes。
IO的分類
IO可以分為File/Block IO和Stream I/O兩類。
對於File/Block IO來說,數據是存儲在disk中,而disk是由filesystem來進行管理的。我們可以通過filesystem來定義file的名字,路徑,文件屬性等內容。
filesystem通過把數據划分成為一個個的data blocks來進行管理。有些blocks存儲着文件的元數據,有些block存儲着真正的數據。
最后filesystem在處理數據的過程中,也進行了分頁。filesystem的分頁大小可以跟內存分頁的大小一致,或者是它的倍數,比如 2,048 或者 8,192 bytes等。
並不是所有的數據都是以block的形式存在的,我們還有一類IO叫做stream IO。
stream IO就像是管道流,里面的數據是序列被消費的。
IO和NIO的區別
java1.0中的IO是流式IO,它只能一個字節一個字節的處理數據,所以IO也叫做Stream IO。
而NIO是為了提升IO的效率而生的,它是以Block的方式來讀取數據的。
Stream IO中,input輸入一個字節,output就輸出一個字節,因為是Stream,所以可以加上過濾器或者過濾器鏈,可以想想一下web框架中的filter chain。在Stream IO中,數據只能處理一次,你不能在Stream中回退數據。
在Block IO中,數據是以block的形式來被處理的,因此其處理速度要比Stream IO快,同時可以回退處理數據。但是你需要自己處理buffer,所以復雜程度要比Stream IO高。
一般來說Stream IO是阻塞型IO,當線程進行讀或者寫操作的時候,線程會被阻塞。
而NIO一般來說是非阻塞的,也就是說在進行讀或者寫的過程中可以去做其他的操作,而讀或者寫操作執行完畢之后會通知NIO操作的完成。
在IO中,主要分為DataOutPut和DataInput,分別對應IO的out和in。
DataOutPut有三大類,分別是Writer,OutputStream和ObjectOutput。
看下他們中的繼承關系:
DataInput也有三大類,分別是ObjectInput,InputStream和Reader。
看看他們的繼承關系:
ObjectOutput和ObjectInput類比較少,這里就不列出來了。
統計一下大概20個類左右,搞清楚這20個類的用處,恭喜你java IO你就懂了!
對於NIO來說比較復雜一點,首先,為了處理block的信息,需要將數據讀取到buffer中,所以在NIO中Buffer是一個非常中要的概念,我們看下NIO中的Buffer:
從上圖我們可以看到NIO中為我們准備了各種各樣的buffer類型使用。
另外一個非常重要的概念是channel,channel是NIO獲取數據的通道:
NIO需要掌握的類的個數比IO要稍稍多一點,畢竟NIO要復雜一點。
就這么幾十個類,我們就掌握了IO和NIO,想想都覺得興奮。
總結
后面的文章中,我們會介紹小師妹給你們認識,剛好她也在學java IO,后面的學習就跟她一起進行吧,敬請期待。
本文作者:flydean程序那些事
本文鏈接:http://www.flydean.com/io-nio-overview/
本文來源:flydean的博客
歡迎關注我的公眾號:程序那些事,更多精彩等着您!