Glusterfs之nfs模塊源碼分析（上）之nfs原理和協議

本文轉載自查看原文 2012-05-07 22:38 3632 nfs/ glusterfs/ 分布式開源軟件研究

我的新浪微博：http://weibo.com/freshairbrucewoo。

歡迎大家相互交流，共同提高技術。

一、網絡文件系統概述

Sun Microsystems公司於1984年推出了一個在整個計算機工業中被廣泛接受的遠程文件存取機制，它被稱為Sun的網絡文件系統（Network File System），或者簡稱為NFS。該機制允許在一台計算機上運行一個服務器，使對其上的某些或所有文件都可以進行遠程存取，還允許其他計算機上的應用程序對這些文件進行存取。

它使我們能夠達到文件的共享。當使用者想用遠端檔案時只要用"mount"就可把remote檔案系統掛接在自己的檔案系統之下，使得遠端的文件操作上和本地機器的文件沒兩樣。一個應用程序可以打開（Open）一個遠程文件以進行存取，可以從這個文件中讀取（Read）數據，向該文件中寫入（Write）數據，定位（Seek）到文件中的某個指定位置（開始、結尾或者其他地方），最后當使用完畢后關閉(Close)該文件。並且這些操作都是對編程者透明的，操作方法和對本地文件的操作方法完全一樣。

二、NFS協議

NFS協議使用NFS，客戶端可以透明地訪問服務器中的文件系統，這不同於提供文件傳輸的FTP協議。FTP會產生文件一個完整的副本；NFS只訪問一個進程引用文件部分，並且一個目的就是使得這種訪問透明。這就意味着任何能夠訪問一個本地文件的客戶端程序不需要做任何修改，就應該能夠訪問一個NFS文件。NFS是一個使用SunRPC構造的客戶端/服務器應用程序，其客戶端通過向一台NFS服務器發送RPC請求來訪問其中的文件。盡管這一工作可以使用一般的用戶進程來實現，即NFS客戶端可以是一個用戶進程，對服務器進行顯式調用，而服務器也可以是一個用戶進程。因為兩個理由，NFS一般不這樣實現。首先訪問一個NFS文件必須對客戶端透明，因此NFS的客戶端調用是由客戶端操作系統代表用戶進程來完成的；其次，出於效率的考慮，NFS服務器在服務器操作系統中實現。如果NFS服務器是一個用戶進程，每個客戶端請求和服務器應答（包括讀和寫的數據）將不得不在內核和用戶進程之間進行切換，這個代價太大。第3版的NFS協議在1993年發布，下圖所示為一個NFS客戶端和一台NFS服務器的典型結構。

圖1 NFS客戶端和NFS服務器的典型結構

（1）訪問一個本地文件還是一個NFS文件對於客戶端來說是透明的，當文件被打開時，由內核決定這一點。文件被打開之后，內核將本地文件的所有引用傳遞給名為“本地文件訪問”的框中，而將一個NFS文件的所有引用傳遞給名為“NFS客戶端”的框中。

（2）NFS客戶端通過其TCP/IP模塊向NFS服務器發送RPC請求，NFS主要使用UDP，最新的實現也可以使用TCP。

（3）NFS服務器在端口2049接收作為UDP數據包的客戶端請求，盡管NFS可以被實現為使用端口映射器，允許服務器使用一個臨時端口，但是大多數實現都是直接指定UDP端口2049。

（4）當NFS服務器收到一個客戶端請求時，它將這個請求傳遞給本地文件訪問例程，然后訪問服務器主機上的一個本地的磁盤文件。

（5）NFS服務器需要花一定的時間來處理一個客戶端的請求，訪問本地文件系統一般也需要一部分時間。在這段時間間隔內，服務器不應該阻止其他客戶端請求。為了實現這一功能，大多數的NFS服務器都是多線程的——服務器的內核中實際上有多個NFS服務器在NFS本身的加鎖管理程序中運行，具體實現依賴於不同的操作系統。既然大多數UNIX內核不是多線程的，一個共同的技術就是啟動一個用戶進程（常被稱為“nfsd”）的多個實例。這個實例執行一個系統調用，使其作為一個內核進程保留在操作系統的內核中。

（6）在客戶端主機上，NFS客戶端需要花一定的時間來處理一個用戶進程的請求。NFS客戶端向服務器主機發出一個RPC調用，然后等待服務器的應答。為了給使用NFS的客戶端主機上的用戶進程提供更多的並發性，在客戶端內核中一般運行着多個NFS客戶端，同樣具體實現也依賴於操作系統。

三、NFS的工作原理和服務進程的作用

在Linux中，NFS和服務進程是兩個不同的概念，但它們確實緊密聯系在一起。首先，先介紹NFS的工作原理。

第一節、NFS的工作原理

啟動NFS文件服務器時，/etc/rc.local會自動啟動exportfs程序，指定可以導出的文件或目錄，而所能掛載的也只能是其所指定的目錄。
NFS是基於XDR/RPC協議的。XDR（eXternal Data Representation，即外部數據表示法）提供一種方法，把數據從一種格式轉換成另一種標准數據格式表示法，確保在不同的計算機、操作系統及程序語言中，所有數據代表的意義都是相同的。
RPC（Remote Procedure Call，遠程程序調用）請求遠程計算機給予服務。客戶機通過網絡傳送RPC到遠程計算機，請求服務。
NFS運用RPC傳送數據的方法有以下幾步：
（1）客戶送出信息，請求服務。
（2）客戶占位程序把客戶送出的參數轉換成XDR標准格式，並用系統調用把信息送到網絡上。
（3）信息經過網絡送達遠程主機系統。
（4）遠程主機將接受到的信息傳給服務器占位程序。
（5）把XDR形式的數據，轉換成符合主機端的格式，取出客戶發出的服務請求參數，送給服務器。
（6）服務器給客戶發送服務的逆向傳送過程。

第二節、服務進程的作用

服務進程是系統在啟動計算機后自動運行的程序，包括對網絡的連接、網絡協議的加載、圖形桌面的顯示、文件系統的加載等，Linux系統中常見的進程包括以下幾種。
（1）nfsd
根據客戶端對文件系統的需求，啟動文件系統請求服務進程，響應客戶的請求，而一般文件系統請求服務進程的數目是8，這也是在rc.local中寫nfsd 8 &的原因。
（2）biod
此進程是在NFS客戶端上用的，用來啟動異步塊I/O服務進程來建立Buffer Cache，處理在客戶機上的讀寫。（3）mountd
這是個RPC服務器。啟動rpc.mountd服務進程后，mountd會讀取/etc/xtab查看哪一台客戶機正在掛載哪一個文件系統，並回應客戶機所要掛載的路徑。
（4）inetd Internet services服務進程
當系統啟動時，rc.local會啟動inetd讀取inetd.conf配置文件，讀取網絡上所有服務器的地址，鏈接啟動inetd.conf中所有的服務器。當客戶機請求服務時，inetd就會啟動相關的服務進程，如user使用telnet時，inetd啟動telnetd配合user telnet的需求，其余像ftp、finger、rlogin等應用程序，inetd也都會啟動相對應的服務程序ftpd、fingerd、rloingd等。
（5）portmap服務程序
主要功能是將TCP/IP通信協議的端口數字轉換成RPC程序數字，因為這樣客戶端才能進行RPC調用。一般RPC服務器是被inet啟動的，所以portmap必須在inetd之前啟動，否則無法進行RPC調用。

四、NFS服務器之RPC

因為NFS支持的功能相當多，而不同的功能都會使用不同的程序來啟動。每啟動一個功能就會啟用一些端口來傳輸數據，因此NFS的功能所對應的端口才沒有固定，而是采用隨機取用一些未被使用的小於724的端口來作為傳輸之用。但如此一來又造成客戶端要連接服務器時的困擾，因為客戶端要知道服務器端的相關端口才能夠聯機，此時我們需要遠程過程調用（RPC）的服務。RPC最主要的功能就是指定每個NFS功能所對應的端口號，並且回報給客戶端，讓客戶端可以連接到正確的端口上。當服務器在啟動NFS時會隨機選用數個端口，並主動地向RPC注冊。因此RPC可以知道每個端口對應的NFS功能。然后RPC固定使用端口111來監聽客戶端的請求並回報客戶端正確的端口，所以可以讓NFS的啟動更為容易。注意，啟動NFS之前，要先啟動RPC；否則NFS會無法向RPC注冊。另外，重新啟動RPC時原本注冊的數據會不見，因此RPC重新啟動后它管理的所有程序都需要重新啟動以重新向RPC注冊。
當客戶端有NFS文件要存取請求時，它如何向服務器端要求數據？
（1）客戶端會向服務器端的RPC（port 111）發出NFS文件存取功能的詢問請求。
（2）服務器端找到對應的已注冊的NFS daemon端口后會回報給客戶端。
（3）客戶端了解正確的端口后，就可以直接與NFS守護進程來聯機。
由於NFS的各項功能都必須要向RPC注冊，因此RPC才能了解NFS服務的各項功能的port number、PID和NFS在主機所監聽的IP等，而客戶端才能夠通過RPC的詢問找到正確對應的端口。即NFS必須要有RPC存在時才能成功地提供服務，因此我們稱NFS為RPC Server的一種。事實上，有很多這樣的服務器都向RPC注冊。例如，NIS（Network Information Service）也是RPC Server的一種。所以如下圖所示，不論是客戶端還是服務器端，要使用NFS都需要啟動RPC。

圖 2 NFS 與 RPC 服務及操作系統的相關性

NFS協議從誕生到現在為止，已經有多個版本，如NFS V2（rfc794）及NFS V3（rfc1813）（最新的版本是V4（rfc307））。最早，SUN公司曾將NFS V2設計為只使用UDP，主要原因是當時機器的內存、網絡速度和CPU的影響，不得不選擇對機器負擔較輕的方式。而到了NFS V3，SUN公司選擇了TCP作為默認的傳輸方式。V3相對V2的主要區別如下：
（1）文件尺寸：V2最大只支持32位的文件大小（4 GB），而V3新增加了支持64位文件大小的技術
（2）文件傳輸尺寸：V3沒有限定傳輸尺寸，V2最多只能設定為8 KB，可以使用-rsize and -wsize來設定
（3）返回完整的信息：V3增加和完善了返回錯誤和成功信息，對於服務器的設置和管理能帶來很大好處
（4）增加了對TCP傳輸協議的支持：V2只提供了對UDP的支持，在一些高要求的網絡環境中有很大限制；V3增加了對TCP的支持。UDP有着傳輸速度快且非連接傳輸的便捷特性，但是在傳輸上沒有TCP穩定。當網絡不穩定或者黑客入侵時很容易使NFS的性能大幅度降低，甚至使網絡癱瘓。所以對於不同情況，網絡要有針對性地選擇傳輸協議。NFS的默認傳輸協議是UDP，然而RHEL 4.0內核提供了對通過TCP的NFS的支持。要通過TCP來使用NFS，在客戶端系統上掛載NFS導出的文件系統時包括一個“-o tcp”選項。使用TCP的優點和缺點如下：
1）被提高了的連接持久性，因此獲得的NFS stale file handles消息就會較少。
2）載量較大的網絡的性能會有所提高，因為TCP確認每個分組，而UDP只在完成時才確認。
3）TCP具有擁塞控制技術（UDP根本沒有），在一個擁塞情況嚴重的網絡上，UDP分組是被首先撤銷的類型。使用UDP意味着，如果NFS正在寫入數據（單元為8 KB的塊），所有這8 KB數據都需要被重新傳輸。由於TCP的可靠性，8 KB數據中只有一部分需要重新傳輸。
4）錯誤檢測。當TCP連接中斷（由於服務器停止），客戶端就會停止發送數據而開始重新連接。UDP是無連接的，使用它的客戶端就會繼續給網絡發送數據直到服務器重新上線為止。
5）TCP的費用在性能方面的提高並不顯著。
（5）異步寫入特性。
（6）改進了服務器的mount性能。
（7）有更好的I/O寫性能。
（8）更強的網絡運行效能，使得網絡運行更為有效。
（9）更強的災難恢復功能。

在Linux上，UDP是默認使用的協議。作為服務器別無選擇。但作為客戶端，可以使用TCP和其他使用TCP的UNIX NFS服務器互聯。在局域網中使用UDP較好，因為局域網有比較穩定的網絡保證。使用UDP可以帶來更好的性能，Linux默認使用V2，但是也可以通過mount option的nfsvers=n選擇。NFS使用TCP/IP提供的協議和服務運行於OSI層次模型的應用層，如表1所示。

表1 OSI層次模型上的NFS

層數	名稱	功能
1	應用層	NFS
2	表示層	XDR
3	會話層	RPC
4	傳輸層	UDP，TCP
5	網絡層	IP
6	數據鏈路層
7	物理層	Ethernet

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Glusterfs之nfs模塊源碼分析（中）之Glusterfs實現NFS服務器 nfs與glusterfs NFS協議分析——wireshark實戰 NFS協議基於ctdb的nfs-ganesha+glusterfs Glusterfs之rpc模塊源碼分析(中）之Glusterfs的rpc模塊實現（2） FTP 協議與NFS協議 Glusterfs之rpc模塊源碼分析(下）之RDMA over TCP的協議棧工作過程淺析 NFS NFS