HDFS常用命令總結

本文轉載自查看原文 2020-04-09 23:33 4463 hdfs常用命令

文章目錄
課程大綱（HDFS詳解）
學習目標：
HDFS基本概念篇

1.1HDFS前言
1.2HDFS的概念和特性

HDFS基本操作篇

2.1HDFS的shell(命令行客戶端)操作
2.1.1 HDFS命令行客戶端使用
2.2 命令行客戶端支持的命令參數
2.3 常用命令參數介紹

HDFS原理篇
hdfs的工作機制

3.1 概述
3.2 HDFS寫數據流程
3.2.1 概述
3.2.2 詳細步驟圖
3.2.3 詳細步驟解析
3.3. HDFS讀數據流程
3.3.1 概述
3.3.2 詳細步驟圖
3.3.3 詳細步驟解析
4 NAMENODE工作機制
4.1 NAMENODE職責
4.2 元數據管理
4.2.1 元數據存儲機制(元數據是對象，有特定的數據結構，可以理解為hashmap結構)
4.2.2 元數據手動查看
4.2.3 元數據的checkpoint
4.2.4 元數據目錄說明
5 DATANODE的工作機制
5.1 概述
5.2 觀察驗證DATANODE功能
5.3元數據目錄(自己添加,實測有效)

HDFS應用開發篇

6. HDFS的java操作
6.1 搭建開發環境
6.2 獲取api中的客戶端對象
6.3 DistributedFileSystem實例對象所具備的方法
6.4 HDFS客戶端操作數據代碼示例：
6.4.1 文件的增刪改查
6.4.2 通過流的方式訪問hdfs
6.4.3 場景編程

7. 案例1：開發shell采集腳本

7.1需求說明
7.2需求分析
7.3技術分析
7.4實現流程
7.4.1日志產生程序
7.4.2偽代碼
7.5代碼實現
7.6效果展示及操作步驟

8. 案例2：開發JAVA采集程序

8.1 需求
8.2 設計分析

HDFS基本概念篇

1.1HDFS前言

設計思想
　　分而治之：將大文件、大批量文件，分布式存放在大量服務器上，以便於采取分而治之的方式對海量數據進行運算分析；

　　在大數據系統中作用：
　　為各類分布式運算框架（如：mapreduce，spark，tez，……）提供數據存儲服務

　　重點概念：文件切塊，副本存放，元數據
　　補充：
　　hdfs是架在本地文件系統上面的分布式文件系統，它就是個軟件，也就是用一套代碼把底下所有機器的硬盤變成一個軟件下的目錄，和mysql沒有什么區別，思想一樣。
　　mysql 本質是一個解析器，把sql變成io去讀文件，再把數據轉換出來給用戶，存文件的底層就是使用linux或者windows的文件系統，文件名就是表名，目錄名就是庫名。

1.2HDFS的概念和特性

首先，它是一個文件系統，用於存儲文件，通過統一的命名空間——目錄樹來定位文件

其次，它是分布式的，由很多服務器聯合起來實現其功能，集群中的服務器有各自的角色；

重要特性如下：
（1）HDFS中的文件在物理上是分塊存儲（block），塊的大小可以通過配置參數( dfs.blocksize)來規定，默認大小在hadoop2.x版本中是128M，老版本中是64M

（2）HDFS文件系統會給客戶端提供一個統一的抽象目錄樹，客戶端通過路徑來訪問文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data

（3）**目錄結構及文件分塊信息(元數據)**的管理由namenode節點承擔
——namenode是HDFS集群主節點，負責維護整個hdfs文件系統的目錄樹，以及每一個路徑（文件）所對應的block塊信息（block的id，及所在的datanode服務器）

（4）文件的各個block的存儲管理由datanode節點承擔
---- datanode是HDFS集群從節點，每一個block都可以在多個datanode上存儲多個副本（副本數量也可以通過參數設置dfs.replication）
補充：同一個block不會存儲多份(大於1)在同一個datanode上，因為這樣沒有意義。

（5）HDFS是設計成適應一次寫入，多次讀出的場景，且不支持文件的修改

(注：適合用來做數據分析，並不適合用來做網盤應用，因為，不便修改，延遲大，網絡開銷大，成本太高)

HDFS基本操作篇

2.1HDFS的shell(命令行客戶端)操作

2.1.1 HDFS命令行客戶端使用

　　HDFS提供shell命令行客戶端，使用方法如下：

2.2 命令行客戶端支持的命令參數

[-appendToFile <localsrc> ... <dst>]
[-cat [-ignoreCrc] <src> ...]
[-checksum <src> ...]
[-chgrp [-R] GROUP PATH...]
[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
[-chown [-R] [OWNER][:[GROUP]] PATH...]
[-copyFromLocal [-f] [-p] <localsrc> ... <dst>]
[-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
[-count [-q] <path> ...]
[-cp [-f] [-p] <src> ... <dst>]
[-createSnapshot <snapshotDir> [<snapshotName>]]
[-deleteSnapshot <snapshotDir> <snapshotName>]
[-df [-h] [<path> ...]]
[-du [-s] [-h] <path> ...]
[-expunge]
[-get [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
[-getfacl [-R] <path>]
[-getmerge [-nl] <src> <localdst>]
[-help [cmd ...]]
[-ls [-d] [-h] [-R] [<path> ...]]
[-mkdir [-p] <path> ...]
[-moveFromLocal <localsrc> ... <dst>]
[-moveToLocal <src> <localdst>]
[-mv <src> ... <dst>]
[-put [-f] [-p] <localsrc> ... <dst>]
[-renameSnapshot <snapshotDir> <oldName> <newName>]
[-rm [-f] [-r|-R] [-skipTrash] <src> ...]
[-rmdir [--ignore-fail-on-non-empty] <dir> ...]
[-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]
[-setrep [-R] [-w] <rep> <path> ...]
[-stat [format] <path> ...]
[-tail [-f] <file>]
[-test -[defsz] <path>]
[-text [-ignoreCrc] <src> ...]
[-touchz <path> ...]
[-usage [cmd ...]]

2.3 常用命令參數介紹

-help
功能：輸出這個命令參數手冊

-ls
功能：顯示目錄信息
示例： hadoop fs -ls hdfs://hadoop-server01:9000/
備注：這些參數中，所有的hdfs路徑都可以簡寫
–>hadoop fs -ls / 等同於上一條命令的效果

==-mkdir ==
功能：在hdfs上創建目錄
示例：hadoop fs -mkdir -p /aaa/bbb/cc/dd

-moveFromLocal
功能：從本地剪切粘貼到hdfs
示例：hadoop fs - moveFromLocal /home/hadoop/a.txt /aaa/bbb/cc/dd

–appendToFile
功能：追加一個文件到已經存在的文件末尾
示例：hadoop fs -appendToFile ./hello.txt hdfs://hadoop-server01:9000/hello.txt
可以簡寫為：
Hadoop fs -appendToFile ./hello.txt /hello.txt

-cat
功能：顯示文件內容
示例：hadoop fs -cat /hello.txt

-tail
功能：顯示一個文件的末尾
示例：hadoop fs -tail /weblog/access_log.1

-text
功能：以字符形式打印一個文件的內容
示例：hadoop fs -text /weblog/access_log.1

-chgrp
-chmod
-chown
功能：這三個命令跟linux文件系統中的用法一樣，對文件所屬權限
示例：
hadoop fs -chmod 666 /hello.txt
hadoop fs -chown someuser:somegrp /hello.txt

-copyFromLocal
功能：從本地文件系統中拷貝文件到hdfs路徑去
示例：hadoop fs -copyFromLocal ./jdk.tar.gz /aaa/

-copyToLocal
功能：從hdfs拷貝到本地
示例：hadoop fs -copyToLocal /aaa/jdk.tar.gz

-cp
功能：從hdfs的一個路徑拷貝hdfs的另一個路徑
示例： hadoop fs -cp /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2

-mv
功能：在hdfs目錄中移動文件
示例： hadoop fs -mv /aaa/jdk.tar.gz /

-get
功能：等同於copyToLocal，就是從hdfs下載文件到本地
示例：hadoop fs -get /aaa/jdk.tar.gz

-getmerge
功能：合並下載多個文件
示例：比如hdfs的目錄 /aaa/下有多個文件:log.1, log.2,log.3,…
hadoop fs -getmerge /aaa/log.* ./log.sum

-put
功能：等同於copyFromLocal
示例：hadoop fs -put /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2

-rm
功能：刪除文件或文件夾
示例：hadoop fs -rm -r /aaa/bbb/

-rmdir
功能：刪除空目錄
示例：hadoop fs -rmdir /aaa/bbb/ccc

-df
功能：統計文件系統的可用空間信息
示例：hadoop fs -df -h /

-du
功能：統計文件夾的大小信息
示例：
hadoop fs -du -s -h /aaa/*

-count
功能：統計一個指定目錄下的文件節點數量
示例：hadoop fs -count /aaa/

-setrep
功能：設置hdfs中文件的副本數量
示例：hadoop fs -setrep 3 /aaa/jdk.tar.gz

補充： hadoop dfsadmin -report 用這個命令可以快速定位出哪些節點down掉了，HDFS的容量以及使用了多少，以及每個節點的硬盤使用情況。

HDFS原理篇

hdfs的工作機制

（工作機制的學習主要是為加深對分布式系統的理解，以及增強遇到各種問題時的分析解決能力，形成一定的集群運維能力）

注：很多不是真正理解hadoop技術體系的人會常常覺得HDFS可用於網盤類應用，但實際並非如此。要想將技術准確用在恰當的地方，必須對技術有深刻的理解

3.1 概述

HDFS集群分為兩大角色：NameNode、DataNode (Secondary Namenode)
NameNode負責管理整個文件系統的元數據(整個hdfs文件系統的目錄樹和每個文件的block信息)
DataNode 負責管理用戶的文件數據塊
文件會按照固定的大小（blocksize）切成若干塊后分布式存儲在若干台datanode上
每一個文件塊可以有多個副本，並存放在不同的datanode上
Datanode會定期向Namenode匯報自身所保存的文件block信息，而namenode則會負責保持文件的副本數量
HDFS的內部工作機制對客戶端保持透明，客戶端請求訪問HDFS都是通過向namenode申請來進行

3.2 HDFS寫數據流程

3.2.1 概述

客戶端要向HDFS寫數據，首先要跟namenode通信以確認可以寫文件並獲得接收文件block的datanode，然后，客戶端按順序將文件逐個block傳遞給相應datanode，並由接收到block的datanode負責向其他datanode復制block的副本

3.2.2 詳細步驟圖

3.2.3 詳細步驟解析

根namenode通信請求上傳文件，namenode檢查目標文件是否已存在，父目錄是否存在
namenode返回是否可以上傳
client請求第一個 block該傳輸到哪些datanode服務器上
namenode返回3個datanode服務器ABC
client請求3台dn中的一台A上傳數據（本質上是一個RPC調用，建立pipeline），A收到請求會繼續調用B，然后B調用C，將真個pipeline建立完成，逐級返回客戶端
client開始往A上傳第一個block（先從磁盤讀取數據放到一個本地內存緩存），以packet為單位，A收到一個packet就會傳給B，B傳給C；A每傳一個packet會放入一個應答隊列等待應答
當一個block傳輸完成之后，client再次請求namenode上傳第二個block的服務器。

3.3. HDFS讀數據流程

3.3.1 概述

客戶端將要讀取的文件路徑發送給namenode，namenode獲取文件的元信息（主要是block的存放位置信息）返回給客戶端，客戶端根據返回的信息找到相應datanode逐個獲取文件的block並在客戶端本地進行數據追加合並從而獲得整個文件

3.3.2 詳細步驟圖

3.3.3 詳細步驟解析

跟namenode通信查詢元數據，namenode找到文件塊所在的datanode服務器
挑選一台datanode（就近原則，然后隨機）服務器，請求建立socket流
datanode開始發送數據（從磁盤里面讀取數據放入流，以packet為單位來做校驗）
客戶端以packet為單位接收，現在本地緩存，然后寫入目標文件

4 NAMENODE工作機制

學習目標：理解namenode的工作機制尤其是元數據管理機制，以增強對HDFS工作原理的理解，及培養hadoop集群運營中“性能調優”、“namenode”故障問題的分析解決能力

問題場景：

集群啟動后，可以查看文件，但是上傳文件時報錯，打開web頁面可看到namenode正處於safemode狀態，怎么處理？
Namenode服務器的磁盤故障導致namenode宕機，如何挽救集群及數據？
Namenode是否可以有多個？namenode內存要配置多大？namenode跟集群數據存儲能力有關系嗎？
文件的blocksize究竟調大好還是調小好？

……
諸如此類問題的回答，都需要基於對namenode自身的工作原理的深刻理解

4.1 NAMENODE職責

　　NAMENODE職責：
　　負責客戶端請求的響應
　　元數據的管理（查詢，修改）

4.2 元數據管理

namenode對數據的管理采用了三種存儲形式：

內存元數據(NameSystem)
磁盤元數據鏡像文件(fsimage)
數據操作日志文件（edits可通過日志運算出元數據）

4.2.1 元數據存儲機制(元數據是對象，有特定的數據結構，可以理解為hashmap結構)

　　A、內存中有一份完整的元數據(內存meta data)
　　B、磁盤有一個“准完整”的元數據鏡像（fsimage）文件(在namenode的工作目錄中)
　　C、用於銜接內存metadata和持久化元數據鏡像fsimage之間的操作日志（edits文件）注：當客戶端對hdfs中的文件進行新增或者修改操作，操作記錄首先被記入edits日志文件中，當客戶端操作成功后，相應的元數據會更新到內存meta.data中

補充:
　　1、fsimage文件是線性結構，都是0和1，很難查找或者修改某條數據，所以才會定期checkpoint。
　　2、edits記錄的是操作步驟，類似於mysql的binlog
　　3、fsimage記錄的是這個文件備份了幾份，分別叫什么名稱

　　4、secondary namenode建議不和namenode在一個節點啟動，因為它會拷貝元數據，加載到內存生成fsimage，會占用namenode的內存。(最簡版)
　　5、在hadoop的高可用機制+Federation機制中，沒有SecondaryNamenode，可以通過啟動SecondaryNamenode進行驗證，會報一個錯誤:“它的功能被StandbyNamenode取代”。(在啟動的那台機器的logs文件夾里面的SecondaryNamenode.log)。(完全版)

4.2.2 元數據手動查看

　　可以通過hdfs的一個工具來查看edits中的信息
　　bin/hdfs oev -i edits -o edits.xml
　　bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml

4.2.3 元數據的checkpoint

　　每隔一段時間，會由secondary namenode將namenode上最新的edits(下載過的namenode會刪除)和fsimage(第一次時會下載fsimage,以后不會)下載到secondary namenode中，並加載到內存進行merge（這個過程稱為checkpoint）
checkpoint的詳細過程

checkpoint操作的觸發條件配置參數

dfs.namenode.checkpoint.check.period=60 #檢查觸發條件是否滿足的頻率，60秒
dfs.namenode.checkpoint.dir=file://KaTeX parse error: Expected 'EOF', got '#' at position 36: 
…/namesecondary #̲以上兩個參數做checkpoi…{dfs.namenode.checkpoint.dir}

dfs.namenode.checkpoint.max-retries=3 #最大重試次數
dfs.namenode.checkpoint.period=3600 #兩次checkpoint之間的時間間隔3600秒
dfs.namenode.checkpoint.txns=1000000 #兩次checkpoint之間最大的操作記錄

checkpoint的附帶作用

namenode和secondary namenode的工作目錄存儲結構完全相同，所以，當namenode故障退出需要重新恢復時，可以從secondary namenode的工作目錄中將fsimage拷貝到namenode的工作目錄，以恢復namenode的元數據。

4.2.4 元數據目錄說明

在第一次部署好Hadoop集群的時候，我們需要在NameNode（NN）節點上格式化磁盤：

　　$HADOOP_HOME/bin/hdfs namenode -format

格式化完成之后，將會在$ dfs. namenode .name.dir/current目錄下如下的文件結構

current/
|-- VERSION
|-- edits_*
|-- fsimage_0000000000008547077
|-- fsimage_0000000000008547077.md5
`-- seen_txid

其中的dfs.name.dir是在hdfs-site.xml文件中配置的，默認值如下：

<property>
<name>dfs.name.dir</name>
<value>file://${hadoop.tmp.dir}/dfs/name</value>
</property>

hadoop.tmp.dir是在core-site.xml中配置的，默認值如下

<property>
<name>hadoop.tmp.dir</name>
<value>/tmp/hadoop-${user.name}</value>
<description>A base for other temporary directories.</description>
</property>

dfs. namenode.name.dir屬性可以配置多個目錄，
如/data1/dfs/name,/data2/dfs/name,/data3/dfs/name,…。各個目錄存儲的文件結構和內容都完全一樣，相當於備份，這樣做的好處是當其中一個目錄損壞了，也不會影響到Hadoop的元數據，特別是當其中一個目錄是NFS（網絡文件系統Network File System，NFS）之上，即使你這台機器損壞了，元數據也得到保存。
下面對$dfs. namenode .name.dir/current/目錄下的文件進行解釋。

VERSION文件是Java屬性文件，內容大致如下：

#Fri Nov 15 19:47:46 CST 2013
namespaceID=934548976
clusterID=CID-cdff7d73-93cd-4783-9399-0a22e6dce196
cTime=0
storageType=NAME_NODE
blockpoolID=BP-893790215-192.168.24.72-1383809616115
layoutVersion=-47

其中

　　（1）、namespaceID是文件系統的唯一標識符，在文件系統首次格式化之后生成的；
　　（2）、storageType說明這個文件存儲的是什么進程的數據結構信息（如果是DataNode，storageType=DATA_NODE）；
　　（3）、cTime表示NameNode存儲時間的創建時間，由於我的NameNode沒有更新過，所以這里的記錄值為0，以后對NameNode升級之后，cTime將會記錄更新時間戳；
　　（4）、layoutVersion表示HDFS永久性數據結構的版本信息，只要數據結構變更，版本號也要遞減，此時的HDFS也需要升級，否則磁盤仍舊是使用舊版本的數據結構，這會導致新版本的NameNode無法使用；
　　（5）、clusterID是系統生成或手動指定的集群ID，在-clusterid選項中可以使用它；如下說明

a、使用如下命令格式化一個Namenode：

$HADOOP_HOME/bin/hdfs namenode -format [-clusterId <cluster_id>]

選擇一個唯一的cluster_id，並且這個cluster_id不能與環境中其他集群有沖突。如果沒有提供cluster_id，則會自動生成一個唯一的ClusterID。
b、使用如下命令格式化其他Namenode：

$HADOOP_HOME/bin/hdfs namenode -format -clusterId <cluster_id>

c、升級集群至最新版本。在升級過程中需要提供一個ClusterID，例如：

$ HADOOP_PREFIX_HOME/bin/hdfs start namenode --config
$ HADOOP_CONF_DIR -upgrade -clusterId <cluster_ID>

如果沒有提供ClusterID，則會自動生成一個ClusterID。
　　（6）、blockpoolID：是針對每一個Namespace所對應的blockpool的ID，上面的這個BP-893790215-192.168.24.72-1383809616115就是在我的ns1的namespace下的存儲塊池的ID，這個ID包括了其對應的NameNode節點的ip地址。
　　
2. $dfs.namenode.name.dir/current/seen_txid非常重要，是存放transactionId的文件，format之后是0，它代表的是namenode里面的edits_*文件的尾數，namenode重啟的時候，會按照seen_txid的數字，循序從頭跑edits_0000001~到seen_txid的數字。所以當你的hdfs發生異常重啟的時候，一定要比對seen_txid內的數字是不是你edits最后的尾數，不然會發生建置namenode時metaData的資料有缺少，導致誤刪Datanode上多余Block的資訊。

3.$dfs.namenode.name.dir/current目錄下在format的同時也會生成fsimage和edits文件，及其對應的md5校驗文件。
補充：seen_txid
文件中記錄的是edits滾動的序號，每次重啟namenode時，namenode就知道要將哪些edits進行加載edits

5 DATANODE的工作機制

問題場景：
1、集群容量不夠，怎么擴容？
2、如果有一些datanode宕機，該怎么辦？
3、datanode明明已啟動，但是集群中的可用datanode列表中就是沒有，怎么辦？

以上這類問題的解答，有賴於對datanode工作機制的深刻理解

5.1 概述

1、Datanode工作職責：
存儲管理用戶的文件塊數據
定期向namenode匯報自身所持有的block信息（通過心跳信息上報）
（這點很重要，因為，當集群中發生某些block副本失效時，集群如何恢復block初始副本數量的問題）

<property>
<name>dfs.blockreport.intervalMsec</name>
<value>3600000</value>
<description>Determines block reporting interval in milliseconds.</description>
</property>

2、Datanode掉線判斷時限參數

datanode進程死亡或者網絡故障造成datanode無法與namenode通信，namenode不會立即把該節點判定為死亡，要經過一段時間，這段時間暫稱作超時時長。HDFS默認的超時時長為10分鍾+30秒。如果定義超時時間為timeout，則超時時長的計算公式為：
timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval。
而默認的heartbeat.recheck.interval 大小為5分鍾，dfs.heartbeat.interval默認為3秒。
需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的單位為毫秒，dfs.heartbeat.interval的單位為秒。所以，舉個例子，如果heartbeat.recheck.interval設置為5000（毫秒），dfs.heartbeat.interval設置為3（秒，默認），則總的超時時間為40秒。

<property>
<name>heartbeat.recheck.interval</name>
<value>2000</value>
</property>
<property>
<name>dfs.heartbeat.interval</name>
<value>1</value>
</property>

5.2 觀察驗證DATANODE功能

上傳一個文件，觀察文件的block具體的物理存放情況：

在每一台datanode機器上的這個目錄中能找到文件的切塊：

/home/hadoop/app/hadoop-2.4.1/tmp/dfs/data/current/BP-193442119-192.168.2.120-1432457733977/current/finalized

5.3元數據目錄(自己添加,實測有效)

其中的dfs.data.dir是在hdfs-site.xml文件中配置的，默認值如下：

<property>
<name>dfs.data.dir</name>
<value>file://${hadoop.tmp.dir}/dfs/name</value>
</property>

dfs. datanode data.dir屬性可以配置多個目錄，
如/data1/dfs/ data,/data2/dfs/ data,/data3/dfs/ data,…。datanode配置多塊磁盤后，會將這些磁盤統一看成它的空間。並發時有優勢，可以往不同的磁盤寫數據，磁盤可以並行。相當於擴容。

補充：block塊默認128M，最小配置為1M

HDFS應用開發篇

6. HDFS的java操作
hdfs在生產應用中主要是客戶端的開發，其核心步驟是從hdfs提供的api中構造一個HDFS的訪問客戶端對象，然后通過該客戶端對象操作（增刪改查）HDFS上的文件

6.1 搭建開發環境

1.引入依賴

<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.6.1</version>
</dependency>

注：如需手動引入jar包，hdfs的jar包----hadoop的安裝目錄的share下

2. window下開發的說明
　　建議在linux下進行hadoop應用的開發，不會存在兼容性問題。如在window上做客戶端應用開發，需要設置以下環境：
　　A、在windows的某個目錄下解壓一個hadoop的安裝包
　　B、將安裝包下的lib和bin目錄用對應windows版本平台編譯的本地庫替換
　　C、在window系統中配置HADOOP_HOME指向你解壓的安裝包
　　D、在windows系統的path變量中加入hadoop的bin目錄

6.2 獲取api中的客戶端對象

在java中操作hdfs，首先要獲得一個客戶端實例

Configuration conf = new Configuration()
FileSystem fs = FileSystem.get(conf)

而我們的操作目標是HDFS，所以獲取到的fs對象應該是DistributedFileSystem的實例；
get方法是從何處判斷具體實例化那種客戶端類呢？
——從conf中的一個參數 fs.defaultFS的配置值判斷；

如果我們的代碼中沒有指定fs.defaultFS，並且工程classpath下也沒有給定相應的配置，conf中的默認值就來自於hadoop的jar包中的core-default.xml，默認值為： file:///，則獲取的將不是一個DistributedFileSystem的實例，而是一個本地文件系統的客戶端對象

6.3 DistributedFileSystem實例對象所具備的方法

6.4 HDFS客戶端操作數據代碼示例：

6.4.1 文件的增刪改查

public class HdfsClient {

FileSystem fs = null;

@Before
public void init() throws Exception {

// 構造一個配置參數對象，設置一個參數：我們要訪問的hdfs的URI
// 從而FileSystem.get()方法就知道應該是去構造一個訪問hdfs文件系統的客戶端，以及hdfs的訪問地址
// new Configuration();的時候，它就會去加載jar包中的hdfs-default.xml
// 然后再加載classpath下的hdfs-site.xml
Configuration conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://hdp-node01:9000");
/**
* 參數優先級： 1、客戶端代碼中設置的值 2、classpath下的用戶自定義配置文件 3、然后是服務器的默認配置
*/
conf.set("dfs.replication", "3");

// 獲取一個hdfs的訪問客戶端，根據參數，這個實例應該是DistributedFileSystem的實例
// fs = FileSystem.get(conf);

// 如果這樣去獲取，那conf里面就可以不要配"fs.defaultFS"參數，而且，這個客戶端的身份標識已經是hadoop用戶
fs = FileSystem.get(new URI("hdfs://hdp-node01:9000"), conf, "hadoop");

}

/**
* 往hdfs上傳文件
* 
* @throws Exception
*/
@Test
public void testAddFileToHdfs() throws Exception {

// 要上傳的文件所在的本地路徑
Path src = new Path("g:/redis-recommend.zip");
// 要上傳到hdfs的目標路徑
Path dst = new Path("/aaa");
fs.copyFromLocalFile(src, dst);
fs.close();
}

/**
* 從hdfs中復制文件到本地文件系統
* 
* @throws IOException
* @throws IllegalArgumentException
*/
@Test
public void testDownloadFileToLocal() throws IllegalArgumentException, IOException {
fs.copyToLocalFile(new Path("/jdk-7u65-linux-i586.tar.gz"), new Path("d:/"));
fs.close();
}

@Test
public void testMkdirAndDeleteAndRename() throws IllegalArgumentException, IOException {

// 創建目錄
fs.mkdirs(new Path("/a1/b1/c1"));

// 刪除文件夾 ，如果是非空文件夾，參數2必須給值true
fs.delete(new Path("/aaa"), true);

// 重命名文件或文件夾
fs.rename(new Path("/a1"), new Path("/a2"));

}

/**
* 查看目錄信息，只顯示文件
* 
* @throws IOException
* @throws IllegalArgumentException
* @throws FileNotFoundException
*/
@Test
public void testListFiles() throws FileNotFoundException, IllegalArgumentException, IOException {

// 思考：為什么返回迭代器，而不是List之類的容器
RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);

while (listFiles.hasNext()) {
LocatedFileStatus fileStatus = listFiles.next();
System.out.println(fileStatus.getPath().getName());
System.out.println(fileStatus.getBlockSize());
System.out.println(fileStatus.getPermission());
System.out.println(fileStatus.getLen());
BlockLocation[] blockLocations = fileStatus.getBlockLocations();
for (BlockLocation bl : blockLocations) {
System.out.println("block-length:" + bl.getLength() + "--" + "block-offset:" + bl.getOffset());
String[] hosts = bl.getHosts();
for (String host : hosts) {
System.out.println(host);
}
}
System.out.println("--------------為angelababy打印的分割線--------------");
}
}

/**
* 查看文件及文件夾信息
* 
* @throws IOException
* @throws IllegalArgumentException
* @throws FileNotFoundException
*/
@Test
public void testListAll() throws FileNotFoundException, IllegalArgumentException, IOException {

FileStatus[] listStatus = fs.listStatus(new Path("/"));

String flag = "d-- ";
for (FileStatus fstatus : listStatus) {
if (fstatus.isFile()) flag = "f-- ";
System.out.println(flag + fstatus.getPath().getName());
}
}
}

6.4.2 通過流的方式訪問hdfs

/**
* 相對那些封裝好的方法而言的更底層一些的操作方式
* 上層那些mapreduce spark等運算框架，去hdfs中獲取數據的時候，就是調的這種底層的api
* @author
*
*/
public class StreamAccess {

FileSystem fs = null;

@Before
public void init() throws Exception {

Configuration conf = new Configuration();
fs = FileSystem.get(new URI("hdfs://hdp-node01:9000"), conf, "hadoop");

}

/**
* 通過流的方式上傳文件到hdfs
* @throws Exception
*/
@Test
public void testUpload() throws Exception {

FSDataOutputStream outputStream = fs.create(new Path("/angelababy.love"), true);
FileInputStream inputStream = new FileInputStream("c:/angelababy.love");

IOUtils.copy(inputStream, outputStream);

}

@Test
public void testDownLoadFileToLocal() throws IllegalArgumentException, IOException{

//先獲取一個文件的輸入流----針對hdfs上的
FSDataInputStream in = fs.open(new Path("/jdk-7u65-linux-i586.tar.gz"));

//再構造一個文件的輸出流----針對本地的
FileOutputStream out = new FileOutputStream(new File("c:/jdk.tar.gz"));

//再將輸入流中數據傳輸到輸出流
IOUtils.copyBytes(in, out, 4096);


}


/**
* hdfs支持隨機定位進行文件讀取，而且可以方便地讀取指定長度
* 用於上層分布式運算框架並發處理數據
* @throws IllegalArgumentException
* @throws IOException
*/
@Test
public void testRandomAccess() throws IllegalArgumentException, IOException{
//先獲取一個文件的輸入流----針對hdfs上的
FSDataInputStream in = fs.open(new Path("/iloveyou.txt"));


//可以將流的起始偏移量進行自定義
in.seek(22);

//再構造一個文件的輸出流----針對本地的
FileOutputStream out = new FileOutputStream(new File("c:/iloveyou.line.2.txt"));

IOUtils.copyBytes(in,out,19L,true);

}



/**
* 顯示hdfs上文件的內容
* @throws IOException 
* @throws IllegalArgumentException 
*/
@Test
public void testCat() throws IllegalArgumentException, IOException{

FSDataInputStream in = fs.open(new Path("/iloveyou.txt"));

IOUtils.copyBytes(in, System.out, 1024);
}
}

6.4.3 場景編程

在mapreduce 、spark等運算框架中，有一個核心思想就是將運算移往數據，或者說，就是要在並發計算中盡可能讓運算本地化，這就需要獲取數據所在位置的信息並進行相應范圍讀取
以下模擬實現：獲取一個文件的所有block位置信息，然后讀取指定block中的內容

@Test
public void testCat() throws IllegalArgumentException, IOException{

FSDataInputStream in = fs.open(new Path("/weblog/input/access.log.10"));
//拿到文件信息
FileStatus[] listStatus = fs.listStatus(new Path("/weblog/input/access.log.10"));
//獲取這個文件的所有block的信息
BlockLocation[] fileBlockLocations = fs.getFileBlockLocations(listStatus[0], 0L, listStatus[0].getLen());
//第一個block的長度
long length = fileBlockLocations[0].getLength();
//第一個block的起始偏移量
long offset = fileBlockLocations[0].getOffset();

System.out.println(length);
System.out.println(offset);

//獲取第一個block寫入輸出流
//    IOUtils.copyBytes(in, System.out, (int)length);
byte[] b = new byte[4096];

FileOutputStream os = new FileOutputStream(new File("d:/block0"));
while(in.read(offset, b, 0, 4096)!=-1){
os.write(b);
offset += 4096;
if(offset>=length) return;
};
os.flush();
os.close();
in.close();
}

7. 案例1：開發shell采集腳本

7.1需求說明

點擊流日志每天都10T，在業務應用服務器上，需要准實時上傳至數據倉庫（Hadoop HDFS）上

7.2需求分析

一般上傳文件都是在凌晨24點操作，由於很多種類的業務數據都要在晚上進行傳輸，為了減輕服務器的壓力，避開高峰期。
如果需要偽實時的上傳，則采用定時上傳的方式

7.3技術分析

HDFS SHELL: hadoop fs –put xxxx.tar /data 還可以使用 Java Api
滿足上傳一個文件，不能滿足定時、周期性傳入。
定時調度器：
Linux crontab
crontab -e
*/5 * * * * $home/bin/command.sh //五分鍾執行一次
系統會自動執行腳本，每5分鍾一次，執行時判斷文件是否符合上傳規則，符合則上傳

7.4實現流程

7.4.1日志產生程序

日志產生程序將日志生成后，產生一個一個的文件，使用滾動模式創建文件名。

日志生成的邏輯由業務系統決定，比如在log4j配置文件中配置生成規則，如：當xxxx.log 等於10G時，滾動生成新日志

log4j.logger.msg=info,msg
log4j.appender.msg=cn.maoxiangyi.MyRollingFileAppender
log4j.appender.msg.layout=org.apache.log4j.PatternLayout
log4j.appender.msg.layout.ConversionPattern=%m%n
log4j.appender.msg.datePattern='.'yyyy-MM-dd
log4j.appender.msg.Threshold=info
log4j.appender.msg.append=true
log4j.appender.msg.encoding=UTF-8
log4j.appender.msg.MaxBackupIndex=100
log4j.appender.msg.MaxFileSize=10GB
log4j.appender.msg.File=/home/hadoop/logs/log/access.log

細節：
1、如果日志文件后綴是1\2\3等數字，該文件滿足需求可以上傳的話。把該文件移動到准備上傳的工作區間。
2、工作區間有文件之后，可以使用hadoop put命令將文件上傳。

階段問題：
1、待上傳文件的工作區間的文件，在上傳完成之后，是否需要刪除掉。

7.4.2偽代碼

使用ls命令讀取指定路徑下的所有文件信息，
ls | while read line
//判斷line這個文件名稱是否符合規則
if line=access.log.* (
將文件移動到待上傳的工作區間
)

//批量上傳工作區間的文件
hadoop fs –put xxx

腳本寫完之后，配置linux定時任務，每5分鍾運行一次。

7.5代碼實現

代碼第一版本，實現基本的上傳功能和定時調度功能

代碼第二版本：增強版V2(基本能用，還是不夠健全)

7.6效果展示及操作步驟
1、日志收集文件收集數據，並將數據保存起來，效果如下：

2、上傳程序通過crontab定時調度

3、程序運行時產生的臨時文件

4、Hadoo hdfs上的效果

8. 案例2：開發JAVA采集程序

8.1 需求

從外部購買數據，數據提供方會實時將數據推送到6台FTP服務器上，我方部署6台接口采集機來對接采集數據，並上傳到HDFS中

提供商在FTP上生成數據的規則是以小時為單位建立文件夾(2016-03-11-10)，每分鍾生成一個文件（00.dat,01.data,02.dat,…）

提供方不提供數據備份，推送到FTP服務器的數據如果丟失，不再重新提供，且FTP服務器磁盤空間有限，最多存儲最近10小時內的數據

由於每一個文件比較小，只有150M左右，因此，我方在上傳到HDFS過程中，需要將15分鍾時段的數據合並成一個文件上傳到HDFS

為了區分數據丟失的責任，我方在下載數據時最好進行校驗

8.2 設計分析

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 HDFS常用命令總結 HDFS常用命令 HDFS 常用命令 HDFS常用命令 HDFS常用命令 HDFS 常用命令 Hdfs常用命令 hdfs常用命令 hadoop HDFS常用命令 HDFS shell常用命令使用

HDFS常用命令總結

HDFS基本概念篇

1.1HDFS前言

1.2HDFS的概念和特性

HDFS基本操作篇

2.1HDFS的shell(命令行客戶端)操作

2.1.1 HDFS命令行客戶端使用

2.2 命令行客戶端支持的命令參數

2.3 常用命令參數介紹

HDFS原理篇

hdfs的工作機制

3.1 概述

3.2 HDFS寫數據流程

3.2.1 概述

3.2.2 詳細步驟圖

3.2.3 詳細步驟解析

3.3. HDFS讀數據流程

3.3.1 概述

3.3.2 詳細步驟圖

3.3.3 詳細步驟解析

4 NAMENODE工作機制

4.1 NAMENODE職責

4.2 元數據管理

4.2.1 元數據存儲機制(元數據是對象，有特定的數據結構，可以理解為hashmap結構)

4.2.2 元數據手動查看

4.2.3 元數據的checkpoint

4.2.4 元數據目錄說明

5 DATANODE的工作機制

5.1 概述

2、Datanode掉線判斷時限參數

5.2 觀察驗證DATANODE功能

5.3元數據目錄(自己添加,實測有效)

HDFS應用開發篇

6. HDFS的java操作hdfs在生產應用中主要是客戶端的開發，其核心步驟是從hdfs提供的api中構造一個HDFS的訪問客戶端對象，然后通過該客戶端對象操作（增刪改查）HDFS上的文件

6.1 搭建開發環境

6.2 獲取api中的客戶端對象

6.3 DistributedFileSystem實例對象所具備的方法

6.4 HDFS客戶端操作數據代碼示例：

6.4.1 文件的增刪改查

6.4.2 通過流的方式訪問hdfs

6.4.3 場景編程

7. 案例1：開發shell采集腳本

7.1需求說明

7.2需求分析

7.3技術分析

7.4實現流程

7.4.1日志產生程序

7.4.2偽代碼

7.5代碼實現

8. 案例2：開發JAVA采集程序

8.1 需求

8.2 設計分析

免責聲明！

6. HDFS的java操作
hdfs在生產應用中主要是客戶端的開發，其核心步驟是從hdfs提供的api中構造一個HDFS的訪問客戶端對象，然后通過該客戶端對象操作（增刪改查）HDFS上的文件