實驗3-HDFS 常用操作,Spark 讀取文件系統的數據


HDFS 常用操作

使用 Hadoop 提供的 Shell 命令完成如下操作:

(1) 啟動 Hadoop,在 HDFS 中創建用戶目錄“/user/hadoop”;

(2 Linux 系統的本地文件系統的“/home/hadoop”目錄下新建一個文本文件test.txt,並在該文件中隨便輸入一些內容,然后上傳到 HDFS “/user/hadoop”目錄下;

 

(3 HDFS “/user/hadoop”目錄下的 test.txt 文件,下載到 Linux 系統的本地文件系統中的“/home/hadoop/下載”目錄下; 

 

(4) 將HDFS“/user/hadoop”目錄下的test.txt文件的內容輸出到終端中進行顯示;

(5 HDFS 中的“/user/hadoop”目錄下,創建子目錄 input,把 HDFS “/user/hadoop”目錄下的 test.txt 文件,復制到“/user/hadoop/input”目錄下; 

 

(6 刪除HDFS“/user/hadoop”目錄下的test.txt文件,刪除HDFS“/user/hadoop”目錄下的 input 子目錄及其子目錄下的所有內容。

 

Spark 讀取文件系統的數據

(1)在 spark-shell 中讀取 Linux 系統本地文件“/home/hadoop/test.txt”,然后統計出文件的行數;

(2)在 spark-shell 中讀取 HDFS 系統文件“/user/hadoop/test.txt”(如果該文件不存在,請先創建),然后,統計出文件的行數;

(3)編寫獨立應用程序,讀取 HDFS 系統文件“/user/hadoop/test.txt”(如果該文件不存在, 請先創建),然后,統計出文件的行數;通過 sbt 工具將整個應用程序編譯打包成 JAR 包, 並將生成的 JAR 包通過 spark-submit 提交到 Spark 中運行命令。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM