Spark1.6 saveAsTable 函數使用 Overwrite存儲模式設置分區表的 partition 會造成全表覆蓋的問題


0.說明

在實際使用中有一個需求是通過 Spark 對分區表進行增量分區的覆蓋操作,Spark 1.6 的 saveAsTable 函數使用 Overwrite 存儲模式設置分區表的 partition 會造成全表覆蓋的問題 ,使用Append 存儲模式會造成同一分區數據多次寫入並不能滿足我們的需求。在網上查了一下原因,這是個存在很久的問題,是 Spark 的版本的問題,在 Spark 2.3 之后已經修復了這個問題。

參考鏈接

https://stackoverflow.com/questions/38487667/overwrite-specific-partitions-in-spark-dataframe-write-method

 

1.解決方法

除了高贊回答之外,下面這個回答更適合我的應用情景,參考了他這邊的解決問題的思路,所以最后通過手工刪除對應分區的內容,在執行增量分區的寫入操作,適合的才是最好的。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM