hive大小表join性能優化


當一個大表和小表進行join操作時,使用mapjoin性能比普通的join要快很多,mapjoin還能解決數據傾斜問題,基本原理:在小數據量情況下,會將小表全部加載到執行join操作的程序的內存中,從而加快join的執行速度。

大小表join時,將小表放在前面,會將小表進行緩存。

mapjoin將小表放入內存,在map端和大表逐一匹配,省去reduce操作


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM