【文章推薦】【原創】大叔問題定位分享（12）Spark保存文本類型文件（text、csv、json等）到hdfs時為什么是壓縮格式的

原文：【原創】大叔問題定位分享（12）Spark保存文本類型文件（text、csv、json等）到hdfs時為什么是壓縮格式的

問題重現寫文件之后發現文件是壓縮過的 write時首先會獲取hadoopConf，然后從中獲取是否壓縮以及壓縮格式 org.apache.spark.sql.execution.datasources.DataSource org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand org.apache ...

2018-12-12 17:25 0 1411 推薦指數：

查看詳情

【原創】大叔問題定位分享（17）spark查orc格式數據偶爾報錯NullPointerException

spark查orc格式的數據有時會報這個錯 Caused by: java.lang.NullPointerException at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat$BISplitStrategy.getSplits ...

【原創】大叔問題定位分享（20）hdfs文件create寫入正常，append寫入報錯

最近在hdfs寫文件的時候發現一個問題，create寫入正常，append寫入報錯，每次都能重現，代碼示例如下：通過hdfs fsck命令檢查出問題的文件，發現只有一個副本，難道是因為這個？看FileSystem.append執行過程 ...

【原創】大叔問題定位分享（19）spark task在executors上分布不均

最近提交一個spark應用之后發現執行非常慢，點開spark web ui之后發現卡在一個job的一個stage上，這個stage有100000個task，但是絕大部分task都分配到兩個executor上，其他executor非常空閑，what happened？查看spark task分配 ...

【原創】大叔問題定位分享（21）spark執行insert overwrite非常慢，比hive還要慢

最近把一些sql執行從hive改到spark，發現執行更慢，sql主要是一些insert overwrite操作，從執行計划看到，用到InsertIntoHiveTable spark-sql> explain insert overwrite table test2 select ...

【原創】大叔問題定位分享（7）Spark任務中Job進度卡住不動

Spark2.1.1 最近運行spark任務時會發現任務經常運行很久，具體job如下： Job Id ▾ Description Submitted Duration Stages: Succeeded ...

【原創】大叔問題定位分享（27）spark中rdd.cache

spark 2.1.1 spark應用中有一些task非常慢，持續10個小時，有一個task日志如下： 2019-01-24 21:38:56,024 [dispatcher-event-loop-22] INFO ...

【原創】大叔經驗分享（23）spark sql插入表時的文件個數研究

spark sql執行insert overwrite table時，寫到新表或者新分區的文件個數，有可能是200個，也有可能是任意個，為什么會有這種差別？首先看一下spark sql執行insert overwrite table流程： 1 創建臨時目錄 ...

【原創】大叔問題定位分享（13）HBase Region頻繁下線

問題現象：hive執行sql報錯 select count(*) from test_hive_table; 報錯 Error: java.io.IOException ...

原文：【原創】大叔問題定位分享（12）Spark保存文本類型文件（text、csv、json等）到hdfs時為什么是壓縮格式的

相關推薦

相關標簽