理解HDFS高可用性架構

本文轉載自查看原文 2017-08-20 14:53 2915 Hadoop

在Hadoop1.x版本的時候，Namenode存在着單點失效的問題。如果namenode失效了，那么所有的基於HDFS的客戶端——包括MapReduce作業均無法讀，寫或列文件，因為namenode是唯一存儲元數據與文件到數據塊映射的地方。而從一個失效的namenode中恢復的步驟繁多，系統恢復時間太長，也會影響到日常的維護。

Hadoop的2.x版本在HDFS中增加了對高可用性的支持來解決單點失效的問題。

這一實現中簡單說就是配置了一對活動-備用namenode。當活動namenode失效的時候，備用namenode就會接管它的任務並開始服務於來自客戶端的請求，不會有任何明顯中斷。

下面我們來看一下HDFS實現高可用性的架構圖：

從架構圖我們可以看到：

Active NameNode 和 Standby NameNode：兩台 NameNode 形成互備，一台處於 Active 狀態，為主 NameNode，另外一台處於 Standby 狀態，為備 NameNode，只有主 NameNode 才能對外提供讀寫服務。

主備切換控制器又稱故障轉移控制器，ZKFailoverController：ZKFailoverController 作為獨立的進程運行，對 NameNode 的主備切換進行總體控制。ZKFailoverController 能及時檢測到NameNode 的健康狀況，在主NameNode 故障時借助 Zookeeper 實現自動的主備選舉和切換。

Zookeeper 集群：為主備切換控制器提供主備選舉支持。

共享存儲系統：共享存儲系統是實現NameNode 的高可用最為關鍵的部分，共享存儲系統保存了 NameNode 在運行過程中所產生的 HDFS 的元數據。主NameNode和備NameNode 通過共享存儲系統實現元數據同步。在進行主備切換的時候，新的主 NameNode 在確認元數據完全同步之后才能繼續對外提供服務。

DataNode 節點：除了通過共享存儲系統共享 HDFS 的元數據信息之外，主 NameNode 和備 NameNode 還需要共享 HDFS 的數據塊和 DataNode 之間的映射關系。DataNode 會同時向主 NameNode 和備 NameNode 上報數據塊的位置信息。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hdfs高可用性（HDFS High Availability）可用性高達5個9！支付系統高可用架構設計實戰 kafka高可用性集群 SharePoint 2010的高可用性（HA）什么是高可用性(High Availability)？ ActiveMQ配置高可用性的方式 SQL Server 2017 高可用性 eureka高可用性配置 SparkStreaming HA高可用性 MySQL的MHA實現高可用性