spark 實現HDFS小文件合並

本文轉載自查看原文 2022-01-04 22:20 1542 BD

一、首先使用sparksql讀取需要合並的數據。當然有兩種情況，

　　一種是讀取全部數據，即需要合並所有小文件。

　　第二種是合並部分數據，比如只查詢某一天的數據，只合並某一個天分區下的小文件。

val df: DataFrame = spark.sql("sql")

二、將讀取到的數據寫入臨時文件中。此處需注意使用coalesce方法對文件進行合並。

df.coalesce(1).write.mode(SaveMode.Overwrite).parquet(temp_path)

三、將臨時文件寫入待合並文件的目錄，並采用Overwrite的方式。

spark.read.parquet(tmp_path).write.mode(SaveMode.Overwrite).save(origin_table_path)

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hdfs小文件合並 spark小文件合並 HDFS操作及小文件合並合並hive/hdfs小文件 hadoop spark合並小文件合並小文件spark開發 spark小文件合並-01 Spark讀取HDFS小文件優化 Spark定期合並Hive表小文件 spark小文件合並解決多級分區