原文:【原创】大叔问题定位分享(11)Spark中对大表子查询加limit为什么会报Broadcast超时错误

当两个表需要join时,如果一个是大表,一个是小表,正常的map reduce流程需要shuffle,这会导致大表数据在节点间网络传输,常见的优化方式是将小表读到内存中并广播到大表处理,避免shuffle reduce 在hive中叫mapjoin map side join ,配置为 hive.auto.convert.join 在spark中叫BroadcastHashJoin broadca ...

2018-12-12 17:09 0 2721 推荐指数:

查看详情

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM