雲小課 | MRS基礎入門之HDFS組件介紹

本文轉載自查看原文 2021-06-25 10:49 227 華為雲新鮮技術分享/ 分布式文件系統/ MapReduce服務/ Hadoop/ HDFS/ 數據讀寫

摘要：HDFS是MapReduce服務中的基礎文件系統，全稱為Hadoop的分布式文件系統（Hadoop Distributed File System），可支持實現大規模數據可靠的分布式讀寫。

本文分享自華為雲社區《【雲小課】EI第21課 MRS基礎入門之HDFS組件介紹》，原文作者：Hi,EI 。

HDFS針對的使用場景是數據讀寫具有“一次寫，多次讀”的特征，而數據“寫”操作是順序寫，也就是在文件創建時的寫入或者在現有文件之后的添加操作。HDFS保證一個文件在一個時刻只被一個調用者執行寫操作，而可以被多個調用者執行讀操作。

HDFS結構

HDFS是一個Master/Slave的架構，主要包含主、備NameNode和多個DataNode角色。在Master上運行NameNode，而在每一個Slave上運行DataNode，ZKFC需要和NameNode一起運行。

NameNode和DataNode之間的通信都是建立在TCP/IP的基礎之上的。NameNode、DataNode、ZKFC和JournalNode能部署在運行Linux的服務器上。

圖1-1中各模塊的功能說明如表1-1所示。

HA即為High Availability，用於解決NameNode單點故障問題，該特性通過主備的方式為主NameNode提供一個備用者，一旦主NameNode出現故障，可以迅速切換至備NameNode，從而不間斷對外提供服務。

在一個典型HDFS HA場景中，通常由兩個NameNode組成，一個處於Active狀態，另一個處於Standby狀態。

為了能實現Active和Standby兩個NameNode的元數據信息同步，需提供一個共享存儲系統。本版本提供基於QJM（Quorum Journal Manager）的HA解決方案，如圖1-2所示。主備NameNode之間通過一組JournalNode同步元數據信息。

通常配置奇數個（2N+1個）JournalNode，且最少要運行3個JournalNode。這樣，一條元數據更新消息只要有N+1個JournalNode寫入成功就認為數據寫入成功，此時最多容忍N個JournalNode寫入失敗。比如，3個JournalNode時，最多允許1個JournalNode寫入失敗，5個JournalNode時，最多允許2個JournalNode寫入失敗。

由於JournalNode是一個輕量級的守護進程，可以與Hadoop其它服務共用機器。建議將JournalNode部署在控制節點上，以避免數據節點在進行大數據量傳輸時引起JournalNode寫入失敗。

HDFS原理

MRS使用HDFS的副本機制來保證數據的可靠性，HDFS中每保存一個文件則自動生成1個備份文件，即共2個副本。HDFS副本數可通過“dfs.replication”參數查詢。

當MRS集群中Core節點規格選擇為非本地盤（hdd）時，若集群中只有一個Core節點，則HDFS默認副本數為1。若集群中Core節點數大於等於2，則HDFS默認副本數為2。
當MRS集群中Core節點規格選擇為本地盤（hdd）時，若集群中只有一個Core節點，則HDFS默認副本數為1。若集群中有兩個Core節點，則HDFS默認副本數為2。若集群中Core節點數大於等於3，則HDFS默認副本數為3。

MRS服務的HDFS組件支持以下部分特性：

HDFS組件支持糾刪碼，使得數據冗余減少到50%，且可靠性更高，並引入條帶化的塊存儲結構，最大化的利用現有集群單節點多磁盤的能力，使得數據寫入性能在引入編碼過程后，仍和原來多副本冗余的性能接近。
支持HDFS組件上節點均衡調度和單節點內的磁盤均衡調度，有助於擴容節點或擴容磁盤后的HDFS存儲性能提升。

更多關於Hadoop的架構和詳細原理介紹，

請參見：http://hadoop.apache.org/。

HDFS文件基礎操作

在MRS集群中，您可以通過管理控制台、客戶端命令以及API接口等多種方式進行HDFS文件的操作。

MRS集群的創建您

可參考創建集群。

1、通過MRS管理控制台查看HDFS文件信息

在MRS管理控制台，點擊集群名稱進入到MRS集群詳情頁面，單擊“文件管理”。

在文件管理頁面，即可查看HDFS文件列表，並可以執行文件刪除、文件夾增刪以及與OBS服務數據的導入導入。

2、通過集群客戶端查看HDFS文件信息

a. 登錄MRS集群的FusionInsight Manager頁面（如果沒有彈性IP，需提前購買彈性IP），新建一個用戶hdfstest，綁定用戶組supergroup，綁定角色System_administrator（集群未開啟Kerberos認證可跳過）。

b. 下載並安裝集群全量客戶端，例如客戶端安裝目錄為“/opt/client”，可參考安裝客戶端。

c. 為客戶端節點綁定一個彈性IP，然后使用root用戶登錄主Master節點，並進入客戶端所在目錄並認證用戶。

cd /opt/client

source bigdata_env

kinit hbasetest（集群未開啟Kerberos認證可跳過）

d. 使用hdfs命令進行HDFS文件相關操作。

例如：

創建文件夾：

hdfs dfs -mkdir /tmp/testdir

查看文件夾：

hdfs dfs -ls /tmp

Found 11 items 
drwx------   - hdfs       hadoop          0 2021-05-20 11:20 /tmp/.testHDFS 
drwxrwxrwx   - mapred     hadoop          0 2021-05-10 10:33 /tmp/hadoop-yarn 
drwxrwxrwx   - hive       hadoop          0 2021-05-10 10:43 /tmp/hive 
drwxrwx---   - hive       hive            0 2021-05-18 16:21 /tmp/hive-scratch 
drwxrwxrwt   - yarn       hadoop          0 2021-05-17 11:30 /tmp/logs 
drwx------   - hive       hadoop          0 2021-05-20 11:20 /tmp/monitor 
drwxrwxrwx   - spark2x    hadoop          0 2021-05-10 10:45 /tmp/spark2x 
drwxrwxrwx   - spark2x    hadoop          0 2021-05-10 10:44 /tmp/sparkhive-scratch 
drwxr-xr-x   - hetuserver hadoop          0 2021-05-17 11:32 /tmp/state-store-launcher 
drwxr-xr-x   - hdfstest   hadoop          0 2021-05-20 11:20 /tmp/testdir 
drwxrwxrwx   - hive       hadoop          0 2021-05-10 10:43 /tmp/tmp-hive-insert-flag

上傳本地文件至HDFS：

hdfs dfs -put /tmp/test.txt /tmp/testdir （/tmp/test.txt提前准備）

執行hdfs dfs -ls /tmp/testdir命令檢查文件是否存在。

Found 1 items 
-rw-r--r--   3 hdfstest hadoop         49 2021-05-20 11:21 /tmp/testdir/test.txt

下載HDFS文件到本地：

hdfs dfs -get /tmp/testdir/test.txt /opt

3、通過API接口訪問HDFS文件

HDFS支持使用Java語言進行程序開發，使用API接口訪問HDFS文件系統，從而實現大數據業務應用。

具體的API接口內容請參考HDFS Java API。

關於HDFS應用開發及相關樣例代碼介紹，請參考《HDFS開發指南》。

更多華為雲MapReduce(MRS)服務功能介紹及詳情，請戳這里了解。

點擊關注，第一時間了解華為雲新鮮技術~

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hadoop基礎-Hdfs各個組件的運行原理介紹某某課零基礎入門Python 阿里雲盤 ansible入門四（Ansible playbook基礎組件介紹）雲小課 | 到底什么是區塊鏈？ Ansible入門及組件介紹雲小課 | 華為雲KYON之ELB混合負載均衡雲小課 | 華為雲KYON之私網NAT網關小程序基礎入門雲小課｜細數那些VMware虛擬機的恢復招式雲小課 | 區塊鏈關鍵技術之一：共識算法