Spark讀取HDFS小文件優化
Spark讀取HDFS目錄,若該目錄下存在大量小文件時,每個文件都會生成一個Task,當存在大量任務時,可能存在性能不足的問題,可以使用CombineTextInputFormat類代替TextInp ...
Spark讀取HDFS目錄,若該目錄下存在大量小文件時,每個文件都會生成一個Task,當存在大量任務時,可能存在性能不足的問題,可以使用CombineTextInputFormat類代替TextInp ...