spark查orc格式的數據有時會報這個錯 Caused by: java.lang.NullPointerException at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat$BISplitStrategy.getSplits ...
問題重現 寫文件之后發現文件是壓縮過的 write時首先會獲取hadoopConf,然后從中獲取是否壓縮以及壓縮格式 org.apache.spark.sql.execution.datasources.DataSource org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand org.apache ...
2018-12-12 17:25 0 1411 推薦指數:
spark查orc格式的數據有時會報這個錯 Caused by: java.lang.NullPointerException at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat$BISplitStrategy.getSplits ...
最近在hdfs寫文件的時候發現一個問題,create寫入正常,append寫入報錯,每次都能重現,代碼示例如下: 通過hdfs fsck命令檢查出問題的文件,發現只有一個副本,難道是因為這個? 看FileSystem.append執行過程 ...
最近提交一個spark應用之后發現執行非常慢,點開spark web ui之后發現卡在一個job的一個stage上,這個stage有100000個task,但是絕大部分task都分配到兩個executor上,其他executor非常空閑,what happened? 查看spark task分配 ...
最近把一些sql執行從hive改到spark,發現執行更慢,sql主要是一些insert overwrite操作,從執行計划看到,用到InsertIntoHiveTable spark-sql> explain insert overwrite table test2 select ...
Spark2.1.1 最近運行spark任務時會發現任務經常運行很久,具體job如下: Job Id ▾ Description Submitted Duration Stages: Succeeded ...
spark 2.1.1 spark應用中有一些task非常慢,持續10個小時,有一個task日志如下: 2019-01-24 21:38:56,024 [dispatcher-event-loop-22] INFO ...
spark sql執行insert overwrite table時,寫到新表或者新分區的文件個數,有可能是200個,也有可能是任意個,為什么會有這種差別? 首先看一下spark sql執行insert overwrite table流程: 1 創建臨時目錄 ...
問題現象:hive執行sql報錯 select count(*) from test_hive_table; 報錯 Error: java.io.IOException ...