pyspark有個bug, 雖然下面代碼寫了 write.mode("overwrite")但是不生效
spark.conf.set("hive.exec.dynamic.partition.mode", "constrict") db_df.repartition(1).write.mode("overwrite").insertInto("TABLE")
所以會導致TABLE內數據有重復的現象。
如何去重插入數據表?
在insertInto("TABLE", True) 加上True參數即可,表示的同樣是"isOverwrite".