zookeeper在分布式系統中作為協調員的角色,可應用於Leader選舉、分布式鎖、配置管理等服務的實現。以下我們從zookeeper提供的API、應用場景和監控三方面學習和了解zookeeper(以下簡稱ZK)。
ZK API
ZK以Unix文件系統樹結構的形式管理存儲的數據,圖示如下:

其中每個樹節點被稱為znode,每個znode類似一個文件,包含文件元信息(meta data)和數據。
以下我們用server表示ZK服務的提供方,client表示ZK服務的使用方,當client連接ZK時,相應創建session會話信息。
有兩種類型的znode:
Regular: 該類型znode只能由client端顯式創建或刪除
Ephemeral: client端可創建或刪除該類型znode;當session終止時,ZK亦會刪除該類型znode
znode創建時還可以被打上sequential標志,被打上該標志的znode,將自行加上自增的數字后綴
ZK提供了以下API,供client操作znode和znode中存儲的數據:
- create(path, data, flags):創建路徑為path的znode,在其中存儲data[]數據,flags可設置為Regular或Ephemeral,並可選打上sequential標志。
- delete(path, version):刪除相應path/version的znode
- exists(path,watch):如果存在path對應znode,則返回true;否則返回false,watch標志可設置監聽事件
- getData(path, watch):返回對應znode的數據和元信息(如version等)
- setData(path, data, version):將data[]數據寫入對應path/version的znode
- getChildren(path, watch):返回指定znode的子節點集合
ZK應用場景
基於以上ZK提供的znode和znode數據的操作,可輕松實現Leader選舉、分布式鎖、配置管理等服務。
Leader選舉
利用打上sequential標志的Ephemeral,我們可以實現Leader選舉。假設需要從三個client中選取Leader,實現過程如下:
1、各自創建Ephemeral類型的znode,並打上sequential標志:
[zk: localhost:2181(CONNECTED) 4] ls /master [lock-0000000241, lock-0000000243, lock-0000000242]
2、檢查 /master 路徑下的所有znode,如果自己創建的znode序號最小,則認為自己是Leader;否則記錄序號比自己次小的znode
3、非Leader在次小序號znode上設置監聽事件,並重復執行以上步驟2
假如以上 /master/lock-0000000241節點被刪除(相應client服務異常或網絡異常等原因),那么 /master/lock-0000000242相應的znode將提升自己為Leader。client只關心自己創建的znode和序號次小的znode,這避免了驚群效應(Herd Effect)。
分布式鎖的實現與以上Leader選舉的實現相同,稍作修改,我們還可以基於ZK實現lease機制(有期限的授權服務)。
配置管理
znode可以存儲數據,基於這一點,我們可以用ZK實現分布式系統的配置管理,假設有服務A,A擴容設備時需要將相應新增的ip/port同步到全網服務器的A.conf配置,實現過程如下:
1、A擴容時,相應在ZK上新增znode,該znode數據形式如下:
[zk: localhost:2181(CONNECTED) 30] get /A/blk-0000340369 {"svr_info": [{"ip": "1.1.1.1.", "port": "11000"}]} cZxid = 0x2ffdeda3be ……
2、全網機器監聽 /A,當該znode下有新節點加入時,調用相應處理函數,將服務A的新增ip/port加入A.conf
3、完成步驟2后,繼續設置對 /A監聽
服務縮容的步驟類似,機器下線時將ZK相應節點刪除,全網機器監聽到該事件后將配置中的設備剔除。
ZK監控
ZK自身提供了一些“四字命令”,通過這些四字命令,我們可以獲得ZK集群中,某台ZK的角色、znode數、健康狀態等信息:
# echo "mntr" | /usr/bin/netcat 127.0.0.1 2181 zk_version 3.4.3-1240972, built on 02/06/2012 10:48 GMT zk_packets_received 267044485 zk_packets_sent 267069992 zk_outstanding_requests 0 zk_server_state follower zk_znode_count 16216
常用的四字命令有:
- mntr:顯示自身角色、znode數、平均調用耗時、收包發包數等信息
- ruok:診斷自身狀態是否ok
- cons:展示當前的client連接
像不能問一個醉酒的人是否喝醉一樣,我們也不能確信一台回復"imok"的ZK就是真的ok,我們可以通過ZK自帶的zkCli.sh模擬client創建/刪除znode:
/usr/local/zookeeper/bin/zkCli.sh create /zookeeper/test 'test' >/dev/null 2>&1 /usr/local/zookeeper/bin/zkCli.sh delete /zookeeper/test >/dev/null 2>&1
再根據返回值判斷添加、刪除znode是否成功,從而判斷該台ZK狀態是否正常。
小結
zookeeper以目錄樹的形式管理數據,提供znode監聽、數據設置等接口,基於這些接口,我們可以實現Leader選舉、配置管理、命名服務等功能。結合四字命令,加上模擬zookeeper client 創建/刪除znode,我們可以實現對zookeeper的有效監控。在各種分布式系統中,我們經常可以看到zookeeper的身影。
