hive兩個大表join操作

本文轉載自查看原文 2020-10-15 15:56 1120

https://blog.csdn.net/qq_42189083/article/details/82177689

（1）第一次優化，on 字段准換成類型相同

（2）第二次優化，on 后面字段的缺失率很高（為空、字段長度為零、字段填充了非整數），關聯字段為無效字段，則不需要關聯

（3）雖然設置了左表關聯字段為空不去關聯右表，但是這樣做，左表中未關聯的記錄（字段為空）將會全部聚集在一個reduce中進行處理，體現為reduce進度長時間處在99%。換一種思路，解決辦法的突破點就在於如何把左表的未關聯記錄的key盡可能打散，因此可以這么做：若左表關聯字段無效（為空、字段長度為零、字段填充了非整數），則在關聯前將左表關聯字段設置為一個隨機數，再去關聯右表，這么做的目的是即使是左表的未關聯記錄，它的key也分布得十分均勻。

from trackinfo a
left outer join pm_info b
on (
case when (a.ext_field7 is not null
and length(a.ext_field7) > 0
and a.ext_field7 rlike ‘^[0-9]+$’)
then
cast(a.ext_field7 as bigint)
else
cast(ceiling(rand() * -65535) as bigint)
end = b.id
)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 兩個表join 連接，去掉重復的數據 SQL_left join 和from 兩個表的區別 SQL INNER JOIN查詢來自兩個或多個表的數據使用MapReduce實現兩個文件的Join操作 Hive中JOIN操作 018.hive-hive兩個表leftjoin，由於關聯字段類型不同導致的數據錯誤（bigint、string） C# LINQ Join兩個表連接，關聯多個條件的寫法 hive大小表join的詳細解說 hive 表分區操作 Hive表的基本操作