接觸Heartbeat主要是因為之前項目中使用了TFS,最近想給nameserver做HA,因為TFS官方用的Heartbeat,所以剛好了解下,參考了網絡上很多內容,這里簡單記錄下。
內容
環境和軟件包
我的機器是兩台64位的CentOS,其它Linux機器應該差不多可以參考官方的說明。
從Heartbeat 2.1.4之后原先的項目被拆分成了三個子項目:cluster-glue、resource-agents和heartbeat,導致了配置更加復雜。下面列出了我使用的各個軟件包版本並提供了下載(后面具體安裝提供了官方的下載地址,這里自己做個備份)。
- cluster-glue 1.0.9
- resource-agents 3.9.2
- heartbeat 3.0.5
Heartbeat源碼安裝
先最小化系統安裝:gcc編譯環境等。
# yum install gcc gcc-c++ autoconf automake libtool glib2-devel libxml2-develbzip2-devel e2fsprogs-devel libxslt-devel libtool-ltdl-devel make wget docbook-dtds docbook-style-xsl
添加 Haclient 組和 Hacluster 賬戶。這個用戶主要用來配置respawn的。
# groupadd haclient
# useradd -g haclient hacluster -M -s /sbin/nologin
安裝libaio
cluster-glue依賴的庫。libaio是Linux下的一個異步非阻塞接口,它提供了以異步非阻塞方式來讀寫文件的方式,讀寫效率比較高。
# yum install libaio-devel
安裝cluster-glue
glue(膠水的意思)是用來粘合Heartbeat、Pacemake以及Resource Agent的一系列類庫、工具的集合。
# wget http://hg.linux-ha.org/glue/archive/glue-1.0.9.tar.bz2 # tar jxvf glue-1.0.9.tar.bz2 # cd Reusable-Cluster-Components-glue--glue-1.0.9/ # ./autogen.sh # ./configure --prefix=/usr/local/heartbeat --sysconfdir=/etc/heartbeat libdir=/usr/local/heartbeat/lib64 LIBS='/lib64/libuuid.so.1' # make & make install l
安裝Resource Agents
resource-agents為集群資源的訪問提供了一系列標准的接口。
# wget https://codeload.github.com/ClusterLabs/resource-agents/zip/v3.9.2 # unzip v3.9.2 # cd resource-agents-3.9.2/ # ./autogen.sh # ./configure --prefix=/usr/local/heartbeat --sysconfdir=/etc/heartbeat libdir=/usr/local/heartbeat/lib64 CFLAGS=-I/usr/local/heartbeat/include LDFLAGS=-L/usr/local/heartbeat/lib64 LIBS='/lib64/libuuid.so.1' //建立一個軟連接,避免編譯時找不到所需要的包 # ln -s /usr/local/heartbeat/lib64/* /lib64/
注意:LDFLAGS的空格,否則configure時不會報錯但make時報錯。
安裝Heartbeat
# wget http://hg.linux-ha.org/heartbeat-STABLE_3_0/archive/7e3a82377fa8.tar.bz2 # tar jxvf 7e3a82377fa8.tar.bz2 # cd Heartbeat-3-0-7e3a82377fa8/ # ./bootstrap # ./configure --prefix=/usr/local/heartbeat --sysconfdir=/etc/heartbeat CFLAGS=-I/usr/local/heartbeat/include LDFLAGS=-L/usr/local/heartbeat/lib64 LIBS='/lib64/libuuid.so.1' # vi /usr/local/heartbeat/include/heartbeat/glue_config.h // 刪除 glue_config.h 最后一行定義的配置文件路徑,避免編譯時產生的路徑重復定義錯誤,Shift+g 跳到末行,dd刪除 # make && make install
配置文件修改
將配置文件復制到 /etc/heartbeat/ 下,並使用sed 修改路徑
# cp doc/ha.cf /etc/heartbeat/ha.d/ # cp doc/haresources /etc/heartbeat/ha.d/ # cp doc/authkeys /etc/heartbeat/ha.d/ # chkconfig --add heartbeat # chkconfig heartbeat on # chmod 600 /etc/heartbeat/ha.d/authkeys # sed -i 's#/usr/lib/ocf#/usr/local/heartbeat/usr/lib/ocf#g' /etc/heartbeat/ha.d/shellfuncs # sed -i 's#/usr/lib/ocf#/usr/local/heartbeat/usr/lib/ocf#g' /etc/heartbeat/ha.d/resource.d/hto-mapfuncs # sed -i 's#/usr/lib/ocf#/usr/local/heartbeat/usr/lib/ocf#g' /usr/local/heartbeat/usr/lib/ocf/lib/heartbeat/ocf-shellfuncs
建立Resource-Agent 的腳本軟連接,避免Heartbeat 找不到路徑而無法工作
# ln -s /usr/local/heartbeat /usr/lib/ocf
Heartbeat yum安裝
推薦通過yum來安裝Heartbeat,因為無論是tfs官方還是網上一些參考資料都是采用這種方式,這樣會少很多路徑配置方面的問題。但CentOS默認情況通過yum install heartbeat好像找不到相應的包,需要先下載並安裝epel包:
# wget http://mirrors.sohu.com/fedora-epel/6/i386/epel-release-6-8.noarch.rpm # rpm -ivh epel-release-6-8.noarch.rpm # yum install heartbeat*
Heartbeat配置
Heartbeat的配置主要涉及到ha.cf、haresources、authkeys這三個文件。其中ha.cf是主配置文件,haresource用來配置要讓Heartbeat托管的服務,authkey是用來指定Heartbeat的認證方式,具體參考:http://ixdba.blog.51cto.com/2895551/548625
需要注意幾點:
-
authkeys的配置方式:
# auth 1 //認證序號1 # 1 md5 password //序號1 采用MD5 后面是密鑰
auth 后面填寫序號,可任意填寫,但第二行開頭必須為序號名,然后為驗證方式,支持三種( crc md5 sha1 )方式驗證,最后面是自定義密鑰。
- 需要保證authkeys有相應的讀寫權限:
# chmod 600 /etc/heartbeat/ha.d/authkeys
-
對於HA系統來說主從節點的機器時間同步時很重要的。
-
服務要想被Heartbeat托管則必須寫成可以通過start/stop來啟動和關閉的腳本,然后放在/etc/init.d或者Heartbeat自己的ha.d/resource.d目錄中。
-
HA的備份節點也需要安裝Heartbeat,可以同錯scp命令來復制配置文件:
# scp –r node1:/etc/heartbeat/ha.d/* /etc/heartbeat/ha.d/ //node1為主節點的主機名(uname -n)
測試
- 創建測試腳本 在Heartbeat的ha.d/resource.d下如下建立一個腳本:
# vi /etc/heartbeat/ha.d/resource.d/test1
輸入如下內容:
#!/bin/bash logger $0 called with $1 case "$1" in start) # Start commands go here echo "start!!!"; ;; stop) # Stop commands go herer echo "stop!!!"; ;; status) # Status commands go here echo "status!!!"; ;; esac
增加相應的權限:
# chmod 755 test1
可以這樣執行該腳本:
# ./test1 start

- 配置haresource文件
# vi /etc/heartbeat/ha.d/haresources # 輸入下面的內容 # ydhl-test1 test1
其中ydhl-test1為uname –n輸出的結果。
-
配置authkeys,參見上段內容。
-
配置ha.cf
debugfile /var/log/ha-debug # 用於記錄heartbeat的調試信息 logfile /var/log/ha-log # 用於記錄heartbeat的日志信息 logfacility local0 keepalive 2 # 設置心跳間隔 watchdog /dev/watchdog deadtime 30 # 在30秒后宣布節點死亡 warntime 10 # 在日志中發出“late heartbeat“警告之前等待的時間,單位為秒 initdead 120 # 網絡啟動時間 udpport 694 # 廣播/單播通訊使用的udp端口 #baud 19200 #serial /dev/ttyS0 # 使用串口heartbeat bcast eth0 # 使用網卡eth0發送心跳檢測 auto_failback on # 當主節點從故障中恢復時,將自動切換到主節點 watchdog /dev/watchdog # 該指令是用於設置看門狗定時器,如果節點一分鍾內都沒有心跳,那么節點將重新啟動 node HA-01 node HA-02 # 集群中機器的主機名,與“uname –n”的輸出相同。 ping 192.168.0.254 # ping 網關或路由器來檢測鏈路正常 respawn hacluster /usr/local/heartbeat/lib64/heartbeat/ipfail # respawn調用 ipfail 來主動進行切換 apiauth ipfail gid=haclient uid=hacluster # 設置啟動ipfail的用戶和組
-
備份節點配置,參見上段內容。
-
同步主從節點系統時間:可以通過ntpdate來同步
- 啟動Heartbeat
在啟動之前用下面的命令在主從節點上面測試一下配置是否正確,ReourceManager在Heartbeat安裝目錄的share/heartbeat目錄下。
# ./ResourceManager listkeys `/bin/uname -n` 測試通過后啟動主節點和從節點Heartbeat: # service heartbeat start
通過查看 /var/log/messages可以看到Hearbeat的很多信息:

可以看到我們前面的測試腳本test1輸出的信息。
當通過service heartbeat stop命令停止一個節點的Heartbeat的時候,從日志中可以看到另外一個節點已經感知到了:

重啟后可以看到:

FAQ
Q:為什么在/var/log/messages里看到很多下面這樣的警告?

A :這種情況是因為部署Heartbeat是直接從其它機器上拷貝過來導致的。直接拷過來會導致兩個節點上的uuid沖突,解決方法是強制某個Hearbeat重新生成uuid,先停止Heatbeat然后刪除hb_uuid這個文件(可以通過find命令查找)重啟就好了:
# rm –rf /usr/local/heartbeat/var/lib/heartbeat/hb_uuid
Q:什么是“腦裂”問題?
A :采用keepalive等心跳軟件,需要注意“腦裂”問題: "在“雙機熱備”高可用(HA)系統中,當聯系2個節點的“心跳線”斷開時,本來為一整體、動作協調的HA系統,就分裂成為2個獨立的個體。由於相互失去了聯系,都以為是對方出了故障,2個節點上的HA軟件像“裂腦人”一樣,“本能”地爭搶“共享資源”、爭起“應用服務”,就會發生嚴重后果:或者共享資源被瓜分、2邊“服務”都起不來了;或者2邊“服務”都起來了,但同時讀寫“共享存儲”,導致數據損壞(常見如數據庫輪詢着的聯機日志出錯)。
Q:啟動heartbaet的時候可能會報很多庫找不到的錯誤:
A:可以先通過find命令查找,然后通過建立軟連接就可以解決了:
# ln -s /usr/libexec/pacemaker/* /usr/local/heartbeat/lib64/heartbeat/
參考鏈接
[1]高可用方案之腦裂問題探討
