【文章推荐】【原创】大叔问题定位分享（12）Spark保存文本类型文件（text、csv、json等）到hdfs时为什么是压缩格式的

原文：【原创】大叔问题定位分享（12）Spark保存文本类型文件（text、csv、json等）到hdfs时为什么是压缩格式的

问题重现写文件之后发现文件是压缩过的 write时首先会获取hadoopConf，然后从中获取是否压缩以及压缩格式 org.apache.spark.sql.execution.datasources.DataSource org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand org.apache ...

2018-12-12 17:25 0 1411 推荐指数：

查看详情

【原创】大叔问题定位分享（17）spark查orc格式数据偶尔报错NullPointerException

spark查orc格式的数据有时会报这个错 Caused by: java.lang.NullPointerException at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat$BISplitStrategy.getSplits ...

【原创】大叔问题定位分享（20）hdfs文件create写入正常，append写入报错

最近在hdfs写文件的时候发现一个问题，create写入正常，append写入报错，每次都能重现，代码示例如下：通过hdfs fsck命令检查出问题的文件，发现只有一个副本，难道是因为这个？看FileSystem.append执行过程 ...

【原创】大叔问题定位分享（19）spark task在executors上分布不均

最近提交一个spark应用之后发现执行非常慢，点开spark web ui之后发现卡在一个job的一个stage上，这个stage有100000个task，但是绝大部分task都分配到两个executor上，其他executor非常空闲，what happened？查看spark task分配 ...

【原创】大叔问题定位分享（21）spark执行insert overwrite非常慢，比hive还要慢

最近把一些sql执行从hive改到spark，发现执行更慢，sql主要是一些insert overwrite操作，从执行计划看到，用到InsertIntoHiveTable spark-sql> explain insert overwrite table test2 select ...

【原创】大叔问题定位分享（7）Spark任务中Job进度卡住不动

Spark2.1.1 最近运行spark任务时会发现任务经常运行很久，具体job如下： Job Id ▾ Description Submitted Duration Stages: Succeeded ...

【原创】大叔问题定位分享（27）spark中rdd.cache

spark 2.1.1 spark应用中有一些task非常慢，持续10个小时，有一个task日志如下： 2019-01-24 21:38:56,024 [dispatcher-event-loop-22] INFO ...

【原创】大叔经验分享（23）spark sql插入表时的文件个数研究

spark sql执行insert overwrite table时，写到新表或者新分区的文件个数，有可能是200个，也有可能是任意个，为什么会有这种差别？首先看一下spark sql执行insert overwrite table流程： 1 创建临时目录 ...

【原创】大叔问题定位分享（13）HBase Region频繁下线

问题现象：hive执行sql报错 select count(*) from test_hive_table; 报错 Error: java.io.IOException ...

原文：【原创】大叔问题定位分享（12）Spark保存文本类型文件（text、csv、json等）到hdfs时为什么是压缩格式的

相关推荐

相关标签