CDH磁盤清理指南


目錄:
1、將HDFS備份數降低
2、刪除無用HDFS數據和Hbase表格
3、設置kafka的日志時間
4、刪除本機無用文件
5、清理Trash回收站
6、Balancer重新平衡
7、Cloudera監控日志清理
8、查看一級目錄大小


1、將備份數降低
1)將默認的備份數3設置為2。
步鄹:CDH–>HDFS–>配置–>復制因子–>設置為2

2)執行命令: hadoop fs -setrep 2 path(記住為根目錄 / )
3)重啟hdfs
4)結果如下:

 

 

2、刪除無用HDFS數據和Hbase表格
查看HDFS上面文件每個文件大小

hdfs dfs -du -h /


可以刪除的文件

hdfs dfs -du -h /user/spark/applicationHistory
hdfs dfs -rmr /user/root/.Trash

3、設置kafka的日志時間


4、刪除本機無用文件
下面是我寫的一個shell腳本,可以查看所有目錄和文件的大小,將大的無用文件刪除

#!/bin/bash

path=$1

dir=$(ls -l $path |awk '/^d/ {print $NF}')
for i in $dir
do
du -sh $path/$i
done

 

 

 

 

5、清理Trash回收站
HDFS 的Trash回收站功能的配置、使用

http://blog.csdn.net/silentwolfyh/article/details/53907118

6、Balancer重新平衡 
1)集群運行一段時間后各個節點的磁盤使用率可能會產生較大的差異,這時可以用balancer來重新平衡各個節點。

2)首先調大balancer的帶寬 Hadoop dfsadmin -setBalancerBandwidth 52428800 ,這里設置為50MB。默認的帶寬較小,防止占用太多資源。若需要快速平衡可以將帶寬調為一個較大的值。

3)接着啟動balancer。可以在CM里啟動(hdfs-balancer-示例-操作-重新平衡),也可以命令啟動(hadoop balancer [-threshold ])。

 

 

 

 

 

7、Cloudera監控日志清理
裝cm的機器:/var/lib 路徑下有如下文件:有時候根目錄空間不夠

解決方法一:主要清理cloudera-host-monitor 、cloudera-service-monitor
這兩個文件下子目錄帶ts兩個字母的目錄下都會有partitions,直接清掉就ok
例:subject_ts、ts_subject、ts等帶有ts的目錄(慎重啊)

解決方法二:firehose.storage.base.directory,將路徑設置到其余文件下


8、查看一級目錄大小
du -h --max-depth=1 /


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM