一、什么是多路徑
普通的電腦主機都是一個硬盤掛接到一個總線上,這里是一對一的關系。而到了有光纖組成的SAN環境,或者由iSCSI組成的IPSAN環境,由於主機和存儲通過了光纖交換機或者多塊網卡及IP來連接,這樣的話,就構成了多對多的關系。也就是說,主機到存儲可以有多條路徑可以選擇。主機到存儲之間的IO由多條路徑可以選擇。每個主機到所對應的存儲可以經過幾條不同的路徑,如果是同時使用的話,I/O流量如何分配?其中一條路徑壞掉了,如何處理?還有在操作系統的角度來看,每條路徑,操作系統會認為是一個實際存在的物理盤,但實際上只是通向同一個物理盤的不同路徑而已,這樣是在使用的時候,就給用戶帶來了困惑。多路徑軟件就是為了解決上面的問題應運而生的。
多路徑的主要功能就是和存儲設備一起配合實現如下功能:
1.故障的切換和恢復
2.IO流量的負載均衡
3.磁盤的虛擬化
由於多路徑軟件是需要和存儲在一起配合使用的,不同的廠商基於不同的操作系統,都提供了不同的版本。並且有的廠商,軟件和硬件也不是一起賣的,如果要使用多路徑軟件的話,可能還需要向廠商購買license才行。比如EMC公司基於linux下的多路徑軟件,就需要單獨的購買license。好在, RedHat和Suse的2.6的內核中都自帶了免費的多路徑軟件包,並且可以免費使用,同時也是一個比較通用的包,可以支持大多數存儲廠商的設備,即使是一些不是出名的廠商,通過對配置文件進行稍作修改,也是可以支持並運行的很好的。
二、Linux下multipath介紹,需要以下工具包:
在CentOS 5中,最小安裝系統時multipath已經被安裝,查看multipath是否安裝如下:
#rpm -aq|grep mapper
1
、device-mapper-multipath:即multipath-tools。主要提供multipathd和multipath等工具和 multipath.conf等配置文件。這些工具通過device mapper的ioctr的接口創建和配置multipath設備(調用device-mapper的用戶空間庫。創建的多路徑設備會在/dev /mapper中)。
2
、 device-mapper:主要包括兩大部分:內核部分和用戶部分。內核部分主要由device mapper核心(dm.ko)和一些target driver(md-multipath.ko)。核心完成設備的映射,而target根據映射關系和自身特點具體處理從mappered device 下來的i/o。同時,在核心部分,提供了一個接口,用戶通過ioctr可和內核部分通信,以指導內核驅動的行為,比如如何創建mappered device,這些divece的屬性等。linux device mapper的用戶空間部分主要包括device-mapper這個包。其中包括dmsetup工具和一些幫助創建和配置mappered device的庫。這些庫主要抽象,封裝了與ioctr通信的接口,以便方便創建和配置mappered device。multipath-tool的程序中就需要調用這些庫。
3
、dm-multipath.ko和dm.ko:dm.ko是device mapper驅動。它是實現multipath的基礎。dm-multipath其實是dm的一個target驅動。
4
、scsi_id:
包含在udev程序包中,可以在multipath.conf中配置該程序來獲取scsi設備的序號。通過序號,便可以判斷多個路徑對應了同一設備。這個是多路徑實現的關鍵。scsi_id是通過sg驅動,向設備發送EVPD page80或page83 的inquery命令來查詢scsi設備的標識。但一些設備並不支持EVPD 的inquery命令,所以他們無法被用來生成multipath設備。但可以改寫scsi_id,為不能提供scsi設備標識的設備虛擬一個標識符,並輸出到標准輸出。multipath程序在創建multipath設備時,會調用scsi_id,從其標准輸出中獲得該設備的scsi id。在改寫時,需要修改scsi_id程序的返回值為0。因為在multipath程序中,會檢查該直來確定scsi id是否已經成功得到。
/sbin/scsi_id -g -u -s /block/sda 返回scsi的WWID
三、multipath在CentOS 5中的基本配置過程:
1
、安裝和加載多路徑軟件包
#
yum –y install device-mapper device-mapper-multipath
#
chkconfig –level 2345 multipathd on #設置成開機自啟動multipathd
# lsmod |grep dm_multipath #來檢查安裝是否正常
如果模塊沒有加載成功請使用下列命初始化DM,或重啟系統
---Use the following commands to initialize and start DM for the first time:
# modprobe dm-multipath
# modprobe dm-round-robin
# service multipathd start
# multipath –v2
2
、配置multipath:
Multipath的配置文件是/etc/multipath.conf , 如需要multipath正常工作只需要如下配置即可:
# vi /etc/multipath.conf
3、
multipath基本操作命令
# /etc/init.d/multipathd start #開啟mulitipath服務
# multipath -F #刪除現有路徑
# multipath -v2 #格式化路徑
# multipath -ll #查看多路徑以及映射關系
如果配置正確的話就會在/dev/mapper/目錄下多出data等之類設備。
用fdisk -l命令可以看到多路徑軟件創建的磁盤,如下圖中的/dev/dm-3
4、
multipath磁盤的基本操作
要對多路徑軟件生成的磁盤進行操作直接操作/dev/mapper/目錄下的磁盤就行.
在對多路徑軟件生成的磁盤進行分區之前最好運行一下pvcreate命令。
傳統的MBR方式存儲使很多分區工具不能正常讀取大於2TB的磁盤而無法分區大於2TB的磁盤,linux提供parted工具可以很好的支持大磁盤分區
# pvcreate /dev/mapper/mpath0
# fdisk /dev/mapper/mpath0
用fdisk對多路徑軟件生成的磁盤進行分區保存時會有一個報錯,此報錯不用理會。
fdisk對多路徑軟件生成的磁盤進行分區之后,所生成的磁盤分區並沒有馬上添加到/dev/目錄下,此時我們要重啟IPSAN或者FCSAN的驅動,如果是用iscsi-initiator來連接IPSAN的重啟ISCSI服務就可以發現所生成的磁盤分區了
# service iscsi restart
# ls -l /dev/mapper/
如上圖中的datap1-5就是我們對multipath磁盤進行的分區
# mkfs.ext3 /dev/mapper/datap1 #對datap1分區格式化成ext3文件系統
# mount /dev/mapper/datap1 /arch #掛載datap1分區
檢查分區結果:
parted /dev/mapper/data print
或
cat /proc/partitions
四、multipath的高有配置
以上都是用multipath的默認配置來完成multipath的配置,比如映射設備的名稱,multipath負載均衡的方法都是默認設置。那有沒有按照我們自己定義的方法來配置multipath呢,當可以。
1
、multipath.conf
文件的配置
接下來的工作就是要編輯/etc/multipath.conf的配置文件
multipath.conf主要包括blacklist、multipaths、devices三部份的配置
blacklist
配置
blacklist {
devnode "^sda"
}
Multipaths
部分配置multipaths和devices兩部份的配置。
multipaths {
multipath {
wwid **************** #此值multipath -v3可以看到
alias iscsi-dm0 #映射后的別名,可以隨便取
path_grouping_policy multibus #路徑組策略
path_checker tur #決定路徑狀態的方法
path_selector "round-robin 0" #選擇那條路徑進行下一個IO操作的方法
}
......
}
Devices
部分配置
devices {
device {
vendor "iSCSI-Enterprise" #廠商名稱
product "Virtual disk" #產品型號
path_grouping_policy multibus #默認的路徑組策略
getuid_callout "/sbin/scsi_id -g -u -s /block/%n" #獲得唯一設備號使用的默認程序
prio_callout "/sbin/acs_prio_alua %d" #獲取有限級數值使用的默認程序
path_checker readsector0 #決定路徑狀態的方法
path_selector "round-robin 0" #選擇那條路徑進行下一個IO操作的方法
failback immediate #故障恢復的模式
no_path_retry queue #在disable queue之前系統嘗試使用失效路徑的次數的數值
rr_min_io 100 #在當前的用戶組中,在切換到另外一條路徑之前的IO請求的數目
}
}
如下是一個完整的配置文件
blacklist {
devnode "^sda"
}
defaults {
user_friendly_names no
}
multipaths {
multipath {
wwid 14945540000000000a67854c6270b4359c66c272e2f356321
alias iscsi-dm0
path_grouping_policy multibus
path_checker tur
path_selector "round-robin 0"
}
multipath {
wwid 14945540000000000dcca2eda91d70b81edbcfce2357f99ee
alias iscsi-dm1
path_grouping_policy multibus
path_checker tur
path_selector "round-robin 0"
}
multipath {
wwid 1494554000000000020f763489c165561101813333957ed96
alias iscsi-dm2
path_grouping_policy multibus
path_checker tur
path_selector "round-robin 0"
}
multipath {
wwid 14945540000000000919ca813020a195422ba3663e1f03cc3
alias iscsi-dm3
path_grouping_policy multibus
path_checker tur
path_selector "round-robin 0"
}
}
devices {
device {
vendor "iSCSI-Enterprise"
product "Virtual disk"
path_grouping_policy multibus
getuid_callout "/sbin/scsi_id -g -u -s /block/%n"
path_checker readsector0
path_selector "round-robin 0"
}
}
獲取wwid的方法:
(1)默認情況下,將使用 /var/lib/multipath/bindings 內的配置設定具體每個多路徑設備名,如果在/etc/multipath.conf中有設定各wwid 別名,別名會覆蓋此設定。
(2)# multipath -v3命令查找
磁盤scsi_id 獲取命令 : /sbin/scsi_id -g -u -s /block/sd*
測試步驟
1.部署測試環境,主機上兩塊Emulex光線卡連接到光纖交換機,通過光纖交換機再連接到EMC CX存儲,形成SAN拓撲結構。並划分1個100G的LUN分配給主機。
9 5.8 SUSE9 9 SP1 5.9.2 9 SP3 5.9.4 9 SP4 6.1
2.主機安裝操作系統(測試前准備),安裝最新版的device-mapper-multipath軟件包。 通過device-mapper-multipath用戶工具來驗證多路徑的負載均衡及路徑失效切換功能: 使用fdisk命令能看到系統識別出來的4個磁盤設備,這是多條路徑得到的設備名,實際上指向存儲上的同一個LUN,這說明紅旗操作系統已經正確識別到了EMC CX存儲划分出來的LUN,並為下一步多路徑管理作准備。命令及輸出如下:
#fdisk -l
Disk /dev/sdf: 103 GB, 107374182400 bytes 64 heads, 32 sectors/track, 102400 cylinders
Units = cylinders of 2048 0* 512 = 107374182400 bytes
Disk /dev/sdf doesn't contain a valid partition table
Disk /dev/sdh: 103 GB, 107374182400 bytes
64 heads, 32 sectors/track, 102400 cylinders
Units = cylinders of 2048 0* 512 = 107374182400 bytes
Disk /dev/sdh doesn't contain a valid partition table
Disk /dev/sdj: 103 GB, 107374182400 bytes 64 heads, 32 sectors/track, 102400 cylinders
Units = cylinders of 2048 0* 512 = 107374182400 bytes
Disk /dev/sdj doesn't contain a valid partition table
Disk /dev/sdl: 103 GB, 107374182400 bytes 64 heads, 32 sectors/track, 102400 cylinders
Units = cylinders of 2048 0* 512 = 107374182400 bytes
Disk /dev/sdl doesn't contain a valid partition table
實際上這4個設備對應的是一個LUN,只是通過不同的路徑看到的。
3.啟動多路徑管理軟件
# modprobe dm-multipath (加載dm-multipath內核模塊)
說明:系統啟動時缺省地不加載這個模塊。如果應用部署需要,可以在系統啟動時定制。 # /etc/init.d/multipathd start (啟動multipath daemon服務) # multipath –v3 (裝配多路徑設備)
# multipath -ll (顯示當前多路徑拓撲結構) 3600601604b991100f4e5b5c83ef5da11
[size=100 GB][features="1 queue_if_no_path"][hwhandler="1 emc"]
\_ round-robin 0 [active]
\_ 1:0:2:1 sdf 8:80 [ready ][active]
\_ 2:0:1:1 sdl 8:176 [ready ][active]
\_ round-robin 0 [enabled]
\_ 1:0:3:1 sdh 8:112 [ready ][active]
\_2:0:0:1 sdj 8:144 [ready ][active]
這里的設備被分成了兩組,實際上就是通過兩個控制器看到的設備,其中一組的狀態為[active],表示這是當前的活動控制器。接下來的對設備的讀寫都會通過該控制器下的/dev/sdf和/dev/sdl來進行操作。而只有當[active]控制器發生了故障或者執行了Tresspass后才會啟用目前處於[enabled]狀態的控制器下面的設備/dev/sdh,/dev/sdj。