原文:【原創】大叔問題定位分享(11)Spark中對大表子查詢加limit為什么會報Broadcast超時錯誤

當兩個表需要join時,如果一個是大表,一個是小表,正常的map reduce流程需要shuffle,這會導致大表數據在節點間網絡傳輸,常見的優化方式是將小表讀到內存中並廣播到大表處理,避免shuffle reduce 在hive中叫mapjoin map side join ,配置為 hive.auto.convert.join 在spark中叫BroadcastHashJoin broadca ...

2018-12-12 17:09 0 2721 推薦指數:

查看詳情

 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM