Spark2 文件處理和jar包執行


上傳數據文件

mkdir -p data/ml/

hadoop fs -mkdir -p /datafile/wangxiao/

hadoop fs -ls /

hadoop fs -put /home/wangxiao/data/ml/Affairs.txt /datafile/wangxiao/

hadoop fs -ls -R /datafile

hdfs://ns1/datafile/wangxiao/Affairs.txt

 

執行jar包  

  mkdir -p jar/

  $SPARK_HOME/bin/spark-submit \  

  --class "ML2" \  

  --master local[2] \  

  /home/wangxiao/jar/test.jar

 

下載數據文件到本地

hadoop fs -get  /datafile/wangxiao/Affairs.txt  /home/wangxiao/data/ml/

 

刪除HDFS上的文件

hadoop fs -rm -r -f /datafile/wangxiao/data*

 

hadoop fs -cat /user/wangxiao/bfeed.txt  輸出文本內容

hadoop fs –mkdir //user/wangxiao/dir/ 在指定位置創建目錄。
   
hadoop fs -du -h /user/wangxiao/ 統計目錄下文件大小

 

hadoop fs -count -q /user/wangxiao/ 統計文件(夾)數量

命名空間的quota(限制文件數) 剩余的命名空間quota 物理空間的quota (限制空間占用大小) 剩余的物理空間 目錄數統計 文件數統計 目錄邏輯空間總大小 路徑

邏輯空間,即分布式文件系統上真正的文件大小
物理空間,即存在分布式文件系統上該文件實際占用的空間

分布式文件系統為了保證文件的可靠性,往往會保存多個備份(一般是3份),
只要備份數不為1的情況下,一般物理空間會是邏輯空間的幾倍。

HDFS物理空間=邏輯空間*block備份數


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM