Hive如何處理小文件問題？

本文轉載自查看原文 2018-10-23 16:17 1891 hive/ 小文件/ map

一、小文件是如何產生的

1.動態分區插入數據，產生大量的小文件，從而導致map數量劇增。

2.reduce數量越多，小文件也越多(reduce的個數和輸出文件是對應的)。

3.數據源本身就包含大量的小文件。

1.從Hive的角度看，小文件會開很多map，一個map開一個JVM去執行，所以這些任務的初始化，啟動，執行會浪費大量的資源，嚴重影響性能。

2.在HDFS中，每個小文件對象約占150byte，如果小文件過多會占用大量內存。這樣NameNode內存容量嚴重制約了集群的擴展。

從小文件產生的途經就可以從源頭上控制小文件數量，方法如下：

1.使用Sequencefile作為表存儲格式，不要用textfile，在一定程度上可以減少小文件。

2.減少reduce的數量(可以使用參數進行控制)。

3.少用動態分區，用時記得按distribute by分區。

1.使用hadoop archive命令把小文件進行歸檔。

2.重建表，建表時減少reduce數量。

3.通過參數進行調節，設置map/reduce端的相關參數，如下：

//每個Map最大輸入大小(這個值決定了合並后文件的數量)

set mapred.max.split.size=256000000;

//一個節點上split的至少的大小(這個值決定了多個DataNode上的文件是否需要合並)

set mapred.min.split.size.per.node=100000000;

//一個交換機下split的至少的大小(這個值決定了多個交換機上的文件是否需要合並)

set mapred.min.split.size.per.rack=100000000;

//執行Map前進行小文件合並

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

設置map輸出和reduce輸出進行合並的相關參數：

//設置map端輸出進行合並，默認為true

set hive.merge.mapfiles = true

//設置reduce端輸出進行合並，默認為false

set hive.merge.mapredfiles = true

//設置合並文件的大小

set hive.merge.size.per.task = 256*1000*1000

//當輸出文件的平均大小小於該值時，啟動一個獨立的MapReduce任務進行文件merge。

set hive.merge.smallfiles.avgsize=16000000

歡迎留言聯系，上海尚學堂大數據培訓李同學筆記原創，轉載請先聯系。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hive小文件處理 hive中的小文件問題 hive 處理小文件，減少map數 spark sql/hive小文件問題 spark sql/hive小文件問題徹底解決Hive小文件問題 Hive小文件合並 hive小文件合並 Spark SQL 小文件問題處理 hive任務處理小文件合並的參數配置