目錄:
1、將HDFS備份數降低
2、刪除無用HDFS數據和Hbase表格
3、設置kafka的日志時間
4、刪除本機無用文件
5、清理Trash回收站
6、Balancer重新平衡
7、Cloudera監控日志清理
8、查看一級目錄大小
1、將備份數降低
1)將默認的備份數3設置為2。
步鄹:CDH–>HDFS–>配置–>復制因子–>設置為2
2)執行命令: hadoop fs -setrep 2 path(記住為根目錄 / )
3)重啟hdfs
4)結果如下:
2、刪除無用HDFS數據和Hbase表格
查看HDFS上面文件每個文件大小
hdfs dfs -du -h /
可以刪除的文件
hdfs dfs -du -h /user/spark/applicationHistory
hdfs dfs -rmr /user/root/.Trash
3、設置kafka的日志時間
4、刪除本機無用文件
下面是我寫的一個shell腳本,可以查看所有目錄和文件的大小,將大的無用文件刪除
#!/bin/bash path=$1 dir=$(ls -l $path |awk '/^d/ {print $NF}') for i in $dir do du -sh $path/$i done
5、清理Trash回收站
HDFS 的Trash回收站功能的配置、使用
http://blog.csdn.net/silentwolfyh/article/details/53907118
6、Balancer重新平衡
1)集群運行一段時間后各個節點的磁盤使用率可能會產生較大的差異,這時可以用balancer來重新平衡各個節點。
2)首先調大balancer的帶寬 Hadoop dfsadmin -setBalancerBandwidth 52428800 ,這里設置為50MB。默認的帶寬較小,防止占用太多資源。若需要快速平衡可以將帶寬調為一個較大的值。
3)接着啟動balancer。可以在CM里啟動(hdfs-balancer-示例-操作-重新平衡),也可以命令啟動(hadoop balancer [-threshold ])。
7、Cloudera監控日志清理
裝cm的機器:/var/lib 路徑下有如下文件:有時候根目錄空間不夠
解決方法一:主要清理cloudera-host-monitor 、cloudera-service-monitor
這兩個文件下子目錄帶ts兩個字母的目錄下都會有partitions,直接清掉就ok
例:subject_ts、ts_subject、ts等帶有ts的目錄(慎重啊)
解決方法二:firehose.storage.base.directory,將路徑設置到其余文件下
8、查看一級目錄大小
du -h --max-depth=1 /