RSYNC--數據遷移、備份


前言
一台Solaris主機要下線了,准備將數據遷移至一台AIX主機上,可是在Solaris主機上有一個文件系統有1200萬個小文件,因為是跨平台的數據遷移,采用磁盤底層復制無法進行,采用數據備份恢復需要40個小時以上,通過查閱資料,自己搭建測試環境實踐,發現rsync軟件可以滿足數據遷移的需求。
一、Rsync介紹:

Rsync(remote synchronize)是一個遠程數據同步工具,可通過LAN/WAN快速同步多台主機間的文件。Rsync使用所謂的“Rsync算法”來使本地和遠程兩個主機之間的文件達到同步,這個算法只傳送兩個文件的不同部分,而不是每次都整份傳送,因此速度相當快。Rsync本來是用於替代rcp的一個工具,目前由rsync.samba.org維護,所以rsync.conf文件的格式類似於samba的主配置文件。Rsync可以通過rsh或ssh使用,也能以daemon模式去運行,在以daemon方式運行時Rsync server會打開一個873端口,等待客戶端去連接。連接時,Rsync server會檢查口令是否相符,若通過口令查核,則可以開始進行文件傳輸。第一次連通完成時,會把整份文件傳輸一次,以后則就只需進行增量備份。Rsync支持大多數的類Unix系統,無論是Linux、Solaris還是BSD上都經過了良好的測試。此外,它在windows平台下也有相應的版本,如cwRsync和Sync2NAS等工具。

二、Rsync特點:

  1.可以鏡像保存整個目錄樹和文件系統;

 

  2.可以很容易做到保持原來文件的權限、時間、軟硬鏈接等;

 

  3.無須特殊權限即可安裝;

 

  4.優化的流程,文件傳輸效率高;

 

  5.可以使用rsh、ssh等方式來傳輸文件,當然也可以通過直接的socket連接;

 

  6.支持匿名傳輸。

三、Rsync同步算法:

Rsync只所以同步文件的速度相當快,是因為“Rsync同步算法”能在很短的時間內計算出需要備份的數據,關於Rsync的同步算法描述如下:

假定在1號和2號兩台計算機之間同步相似的文件A與B,其中1號對文件A擁有訪問權,2號對文件B擁有訪問權。並且假定主機1號與2號之間的網絡帶寬很小。那么rsync算法將通過下面的五個步驟來完成:

1、2號將文件B分割成一組不重疊的固定大小為S字節的數據塊,最后一塊可能會比S 小。

2、2號對每一個分割好的數據塊執行兩種校驗:一種是32位的滾動弱校驗,另一種是128位的MD4強校驗。

3、2號將這些校驗結果發給1號。

4、1號通過搜索文件A的所有大小為S的數據塊(偏移量可以任選,不一定非要是S的倍數),來尋找與文件B的某一塊有着相同的弱校驗碼和強校驗碼的數據塊。這項工作可以借助滾動校驗的特性很快完成。

5、1號發給2號一串指令來生成文件A在2號上的備份。這里的每一條指令要么是對文件B經擁有某一個數據塊而不須重傳的證明,要么是一個數據塊,這個數據塊肯定是沒有與文件B的任何一個數據塊匹配上的。

3、Rsync參數說明3.1 rsyncd.conf配置文件-、全局參數

在文件中[module]之前的所有參數都是全局參數,當然也可以在全局參數部分定義模塊參數,這時候該參數的值就是所有模塊的默認值。

port

指定后台程序使用的端口號,默認為873。

motd file

" motd file" 參數用來指定一個消息文件,當客戶連接服務器時該文件的內容顯示給客戶,默認是沒有motd文件的。

log file

" log file" 指定rsync的日志文件,而不將日志發送給syslog。比如可指定為“/var/log/rsyncd.log”。

pid file

指定rsync的pid文件,通常指定為“/var/run/rsyncd.pid”。

syslog facility

指定rsync發送日志消息給syslog時的消息級別,常見的消息級別是:uth, authpriv, cron, daemon, ftp, kern, lpr, mail, news, security, sys-log, user, uucp, local0, local1, local2, local3,local4, local5, local6和local7。默認值是daemon。

四、模塊參數

主要是定義服務器哪個目錄要被同步。其格式必須為“[module]”形式,這個名字就是在rsync 客戶端看到的名字,其實有點象Samba服務器提供的共享名。而服務器真正同步的數據是通過 path 來指定的。我們可以根據自己的需要,來指定多個模塊,模塊中可以定義以下參數:

comment

給模塊指定一個描述,該描述連同模塊名在客戶連接得到模塊列表時顯示給客戶。默認沒有描述定義。

path

指定該模塊的供備份的目錄樹路徑,該參數是必須指定的。

use chroot

如果" use chroot" 指定為true,那么rsync在傳輸文件以前首先chroot到path參數所指定的目錄下。這樣做的原因是實現額外的安全防護,但是缺點是需要以roots權限,並且不能備份指向外部的符號連接所指向的目錄文件。默認情況下chroot值為true。

uid

該選項指定當該模塊傳輸文件時守護進程應該具有的uid,配合gid選項使用可以確定哪些可以訪問怎么樣的文件權限,默認值是" nobody" 。

gid

該選項指定當該模塊傳輸文件時守護進程應該具有的gid。默認值為" nobody" 。

max connections

指定該模塊的最大並發連接數量以保護服務器,超過限制的連接請求將被告知隨后再試。默認值是0,也就是沒有限制。

list

該選項設定當客戶請求可以使用的模塊列表時,該模塊是否應該被列出。如果設置該選項為false,可以創建隱藏的模塊。默認值是true。

read only

該選項設定是否允許客戶上載文件。如果為true那么任何上載請求都會失敗,如果為false並且服務器目錄讀寫權限允許那么上載是允許的。默認值為true。

exclude

用來指定多個由空格隔開的多個文件或目錄(相對路徑),並將其添加到exclude列表中。這等同於在客戶端命令中使用--exclude來指定模式,一個模塊只能指定一個exclude選項。但是需要注意的一點是該選項有一定的安全性問題,客戶很有可能繞過exclude列表,如果希望確保特定的文件不能被訪問,那就最好結合uid/gid選項一起使用。

exclude from

指定一個包含exclude模式的定義的文件名,服務器從該文件中讀取exclude列表定義。

include

用來指定不排除符合要求的文件或目錄。這等同於在客戶端命令中使用--include來指定模式,結合include和exclude可以定義復雜的exclude/include規則。

include from

指定一個包含include模式的定義的文件名,服務器從該文件中讀取include列表定義。

auth users

該選項指定由空格或逗號分隔的用戶名列表,只有這些用戶才允許連接該模塊。這里的用戶和系統用戶沒有任何關系。如果" auth users" 被設置,那么客戶端發出對該模塊的連接請求以后會被rsync請求challenged進行驗證身份這里使用的challenge/response認證協議。用戶的名和密碼以明文方式存放在" secrets file" 選項指定的文件中。默認情況下無需密碼就可以連接模塊(也就是匿名方式)。

secrets file

該選項指定一個包含定義用戶名:密碼對的文件。只有在" auth users" 被定義時,該文件才有作用。文件每行包含一個username:passwd對。一般來說密碼最好不要超過8個字符。沒有默認的secures file名,需要限式指定一個(例如:/etc/rsyncd.passwd)。注意:該文件的權限一定要是600,否則客戶端將不能連接服務器。

strict modes

該選項指定是否監測密碼文件的權限,如果該選項值為true那么密碼文件只能被rsync服務器運行身份的用戶訪問,其他任何用戶不可以訪問該文件。默認值為true。

hosts allow

該選項指定哪些IP的客戶允許連接該模塊。客戶模式定義可以是以下形式:

單個IP地址,例如:192.167.0.1

整個網段,例如:192.168.0.0/24,也可以是192.168.0.0/255.255.255.0

多個IP或網段需要用空格隔開,“*”則表示所有,默認是允許所有主機連接。

hosts deny

指定不允許連接rsync服務器的機器,可以使用hosts allow的定義方式來進行定義。默認是沒有hosts deny定義。

ignore errors

指定rsyncd在判斷是否運行傳輸時的刪除操作時忽略server上的IO錯誤,一般來說rsync在出現IO錯誤時將將跳過--delete操作,以防止因為暫時的資源不足或其它IO錯誤導致的嚴重問題。

ignore nonreadable

指定rysnc服務器完全忽略那些用戶沒有訪問權限的文件。這對於在需要備份的目錄中有些文件是不應該被備份者得到的情況是有意義的。

lock file

指定支持max connections參數的鎖文件,默認值是/var/run/rsyncd.lock。

transfer logging

使rsync服務器使用ftp格式的文件來記錄下載和上載操作在自己單獨的日志中。

log format

通過該選項用戶在使用transfer logging可以自己定制日志文件的字段。其格式是一個包含格式定義符的字符串,可以使用的格式定義符如下所示:

%h 遠程主機名

%a 遠程IP地址

%l 文件長度字符數

%p 該次rsync會話的進程id

%o 操作類型:" send" 或" recv"

%f 文件名

%P 模塊路徑

%m 模塊名

%t 當前時間

%u 認證的用戶名(匿名時是null)

%b 實際傳輸的字節數

%c 當發送文件時,該字段記錄該文件的校驗碼

默認log格式為:" %o %h [%a] %m (%u) %f %l" ,一般來說,在每行的頭上會添加" %t [%p] " 。在源代碼中同時發布有一個叫rsyncstats的perl腳本程序來統計這種格式的日志文件。

timeout

通過該選項可以覆蓋客戶指定的IP超時時間。通過該選項可以確保rsync服務器不會永遠等待一個崩潰的客戶端。超時單位為秒鍾,0表示沒有超時定義,這也是默認值。對於匿名rsync服務器來說,一個理想的數字是600。

refuse options

通過該選項可以定義一些不允許客戶對該模塊使用的命令參數列表。這里必須使用命令全名,而不能是簡稱。但發生拒絕某個命令的情況時服務器將報告錯誤信息然后退出。如果要防止使用壓縮,應該是:" dont compress = *" 。

dont compress

用來指定那些不進行壓縮處理再傳輸的文件,默認值是*.gz *.tgz *.zip *.z *.rpm *.deb *.iso *.bz2 *.tbz

五、測試過程

環境介紹:一台SUN Solaris9上有一個文件系統,存在1200萬個小文件,由於服務器替換,需要將其遷移至一台IBM AIX 6.1的服務器。

1、安裝rsync包

在solaris上,安裝rsync3.0.9,可能還需要安裝libiconv庫文件

在aix上安裝rsync3.0.9,安裝前需要先安裝popt-1.7

2、配置服務器端配置文件

vi /etc/rsyncd.conf

uid = nobody

gid = nobody

use chroot = no

max connections = 10

port = 873

[app]

path = /home/app

comment = this is a test

ignore errors

read only = yes

list = no

uid = 0

gid = 0

aut users = root

secrets file = /etc/rsync.pas

pid file = /var/run/rsyncd.pid

lock file = /var/run/rsync.lock

log file = /var/log/rsyncd.log

================================

創建密碼文件

vi /etc/rsync.pas

root:root

啟動服務進程

rsync --daemon

netstat -an|grep 873

在IBM aix服務器上運行如下命令:

rsync -zvrtopg --progress --delete --password-file=/etc/rsync.pas root@172.xx.xx.xx::app /home/app

其中,rsync.pas需要手工創建

vi /etc/rsync.pas

root

=======================================

測試過程中的問題:

1、文件傳輸以目錄遞歸的方式傳輸,並非以文件系統方式傳送

2、碰到傳送過程中有文件傳送失敗,提示permission denied,需要在模塊里面添加uid = 0 ,gid = 0。

3、部分文件傳輸的時候顯示skip,即沒有傳輸,檢查后發現是存在軟連接的現象,故加上參數-l。

參數說明

-v, --verbose  詳細模式輸出
-q, --quiet 精簡輸出模式
-c, --checksum 打開校驗開關,強制對文件傳輸進行校驗
-a, --archive 歸檔模式,表示以遞歸方式傳輸文件,並保持所有文件屬性,等於-rlptgoD
-r, --recursive 對子目錄以遞歸模式處理
-R, --relative 使用相對路徑信息
-b, --backup 創建備份,也就是對於目的已經存在有同樣的文件名時,將老的文件重新命名為~filename。可以使用--suffix選項來指定不同的備份文件前綴。
--backup-dir 將備份文件(如~filename)存放在在目錄下。
-suffix=SUFFIX 定義備份文件前綴
-u, --update 僅僅進行更新,也就是跳過所有已經存在於DST,並且文件時間晚於要備份的文件。(不覆蓋更新的文件)
-l, --links 保留軟鏈結
-L, --copy-links 想對待常規文件一樣處理軟鏈結
--copy-unsafe-links 僅僅拷貝指向SRC路徑目錄樹以外的鏈結
--safe-links 忽略指向SRC路徑目錄樹以外的鏈結
-H, --hard-links 保留硬鏈結     -p, --perms 保持文件權限
-o, --owner 保持文件屬主信息     -g, --group 保持文件屬組信息
-D, --devices 保持設備文件信息    -t, --times 保持文件時間信息
-S, --sparse 對稀疏文件進行特殊處理以節省DST的空間
-n, --dry-run現實哪些文件將被傳輸
-W, --whole-file 拷貝文件,不進行增量檢測
-x, --one-file-system 不要跨越文件系統邊界
-B, --block-size=SIZE 檢驗算法使用的塊尺寸,默認是700字節
-e, --rsh=COMMAND 指定使用rsh、ssh方式進行數據同步
--rsync-path=PATH 指定遠程服務器上的rsync命令所在路徑信息
-C, --cvs-exclude 使用和CVS一樣的方法自動忽略文件,用來排除那些不希望傳輸的文件
--existing 僅僅更新那些已經存在於DST的文件,而不備份那些新創建的文件
--delete 刪除那些DST中SRC沒有的文件
--delete-excluded 同樣刪除接收端那些被該選項指定排除的文件
--delete-after 傳輸結束以后再刪除
--ignore-errors 及時出現IO錯誤也進行刪除
--max-delete=NUM 最多刪除NUM個文件
--partial 保留那些因故沒有完全傳輸的文件,以是加快隨后的再次傳輸
--force 強制刪除目錄,即使不為空
--numeric-ids 不將數字的用戶和組ID匹配為用戶名和組名
--timeout=TIME IP超時時間,單位為秒
-I, --ignore-times 不跳過那些有同樣的時間和長度的文件
--size-only 當決定是否要備份文件時,僅僅察看文件大小而不考慮文件時間
--modify-window=NUM 決定文件是否時間相同時使用的時間戳窗口,默認為0
-T --temp-dir=DIR 在DIR中創建臨時文件
--compare-dest=DIR 同樣比較DIR中的文件來決定是否需要備份
-P 等同於 --partial
--progress 顯示備份過程
-z, --compress 對備份的文件在傳輸時進行壓縮處理
--exclude=PATTERN 指定排除不需要傳輸的文件模式
--include=PATTERN 指定不排除而需要傳輸的文件模式
--exclude-from=FILE 排除FILE中指定模式的文件
--include-from=FILE 不排除FILE指定模式匹配的文件
--version 打印版本信息
--address 綁定到特定的地址
--config=FILE 指定其他的配置文件,不使用默認的rsyncd.conf文件
--port=PORT 指定其他的rsync服務端口
--blocking-io 對遠程shell使用阻塞IO
-stats 給出某些文件的傳輸狀態
--progress 在傳輸時現實傳輸過程
--log-format=formAT 指定日志文件格式
--password-file=FILE 從FILE中得到密碼
--bwlimit=KBPS 限制I/O帶寬,KBytes per second      -h, --help 顯示幫助信息


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM