【文章推薦】【原創】大叔經驗分享（15）spark sql limit實現原理

原文：【原創】大叔經驗分享（15）spark sql limit實現原理

之前討論過hive中limit的實現，詳見 https: www.cnblogs.com barneywill p .html下面看spark sql中limit的實現，首先看執行計划： spark sql gt explain select from test limit Physical Plan CollectLimit HiveTableScan id , MetastoreRelatio ...

2018-12-21 14:36 0 1252 推薦指數：

查看詳情

【原創】大叔經驗分享（84）spark sql中設置hive.exec.max.dynamic.partitions無效

spark 2.4 spark sql中執行 set hive.exec.max.dynamic.partitions=10000; 后再執行sql依然會報錯：這個參數hive.exec.max.dynamic.partitions的默認值是1000，修改 ...

【原創】大叔經驗分享（23）spark sql插入表時的文件個數研究

spark sql執行insert overwrite table時，寫到新表或者新分區的文件個數，有可能是200個，也有可能是任意個，為什么會有這種差別？首先看一下spark sql執行insert overwrite table流程： 1 創建臨時目錄 ...

【原創】大叔經驗分享（65）spark讀取不到hive表

spark 2.4.3 spark讀取hive表，步驟： 1）hive-site.xml hive-site.xml放到$SPARK_HOME/conf下 2）enableHiveSupport SparkSession.builder.enableHiveSupport ...

【原創】大叔經驗分享（39）spark cache unpersist級聯操作

問題：spark中如果有兩個DataFrame（或者DataSet），DataFrameA依賴DataFrameB，並且兩個DataFrame都進行了cache，將DataFrameB unpersist之后，DataFrameA的cache也會失效，官方解釋如下： When ...

【原創】大叔經驗分享（5）oozie提交spark任務如何添加依賴

spark任務添加依賴的方式： 1 如果是local方式運行，可以通過--jars來添加依賴； 2 如果是yarn方式運行，可以通過spark.yarn.jars來添加依賴；這兩種方式在oozie上都行不通，首先oozie上沒辦法也不應該通過local運行 ...

【原創】大叔經驗分享（55）spark連接kudu報錯

spark-2.4.2kudu-1.7.0 開始嘗試 1）自己手工將jar加到classpath spark-2.4.2-bin-hadoop2.6+kudu-spark2_2.11-1.7.0-cdh5.16.1.jar 2）采用官方的方式（將kudu版本改為1.7.0 ...

【原創】大叔經驗分享（60）hive和spark讀取kudu表

從impala中創建kudu表之后，如果想從hive或spark sql直接讀取，會報錯：官方的解釋是： You will encounter this exception when you try to access a Kudu table using ...

【原創】大叔經驗分享（1）在yarn上查看hive完整執行sql

hive執行sql提交到yarn上的任務名字是被處理過的，通常只能顯示sql的前邊一段和最后幾個字符，這樣就會帶來一些問題： 1）相近時間提交了幾個相近的sql，相互之間無法區分； 2）一個任務有問題，想看下這個任務具體執行的是什么？是誰的任務？通過以下方法可以查看： 1）如果任務 ...

原文：【原創】大叔經驗分享（15）spark sql limit實現原理

相關推薦

相關標簽