【文章推荐】【原创】大叔问题定位分享（11）Spark中对大表子查询加limit为什么会报Broadcast超时错误

原文：【原创】大叔问题定位分享（11）Spark中对大表子查询加limit为什么会报Broadcast超时错误

当两个表需要join时，如果一个是大表，一个是小表，正常的map reduce流程需要shuffle，这会导致大表数据在节点间网络传输，常见的优化方式是将小表读到内存中并广播到大表处理，避免shuffle reduce 在hive中叫mapjoin map side join ，配置为 hive.auto.convert.join 在spark中叫BroadcastHashJoin broadca ...

2018-12-12 17:09 0 2721 推荐指数：

查看详情

【原创】大叔问题定位分享（7）Spark任务中Job进度卡住不动

Spark2.1.1 最近运行spark任务时会发现任务经常运行很久，具体job如下： Job Id ▾ Description Submitted Duration Stages: Succeeded ...

【原创】大叔问题定位分享（27）spark中rdd.cache

spark 2.1.1 spark应用中有一些task非常慢，持续10个小时，有一个task日志如下： 2019-01-24 21:38:56,024 [dispatcher-event-loop-22] INFO ...

【原创】大叔经验分享（2）为什么hive在大表上加条件后执行limit很慢

问题重现 select id from big_table where name = 'sdlkfjalksdjfla' limit 100; 首先看执行计划： hive> explain select * from big_table where name ...

【原创】大叔经验分享（15）spark sql limit实现原理

之前讨论过hive中limit的实现，详见 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的实现，首先看执行计划： spark-sql> explain select * from test1 ...

【原创】大叔问题定位分享（19）spark task在executors上分布不均

最近提交一个spark应用之后发现执行非常慢，点开spark web ui之后发现卡在一个job的一个stage上，这个stage有100000个task，但是绝大部分task都分配到两个executor上，其他executor非常空闲，what happened？查看spark task分配 ...

【原创】大叔问题定位分享（21）spark执行insert overwrite非常慢，比hive还要慢

最近把一些sql执行从hive改到spark，发现执行更慢，sql主要是一些insert overwrite操作，从执行计划看到，用到InsertIntoHiveTable spark-sql> explain insert overwrite table test2 select ...

【原创】大叔问题定位分享（17）spark查orc格式数据偶尔报错NullPointerException

spark查orc格式的数据有时会报这个错 Caused by: java.lang.NullPointerException at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat$BISplitStrategy.getSplits ...

【原创】大叔经验分享（65）spark读取不到hive表

spark 2.4.3 spark读取hive表，步骤： 1）hive-site.xml hive-site.xml放到$SPARK_HOME/conf下 2）enableHiveSupport SparkSession.builder.enableHiveSupport ...

原文：【原创】大叔问题定位分享（11）Spark中对大表子查询加limit为什么会报Broadcast超时错误

相关推荐

相关标签