Spark 讀寫hive 表

本文轉載自查看原文 2017-11-29 13:09 3942 big data

spark 讀寫hive表主要是通過sparkssSession

讀表的時候，很簡單，直接像寫sql一樣sparkSession.sql("select * from xx") 就可以了。

這里主要是寫數據，因為數據格式有很多類型，比如orc,parquet 等，這里就需要按需要的格式寫數據。

首先，對於特殊的格式這里就要制定

　　 dataFrame.write.format("orc")的方式。

其次，對於寫入分區表有2種方式，insertInto 和saveAsTable,

　　a) insertInto 不需要制定分區，分區應該是你創建表的時候已經寫明了的。

  insertInto() can't be used together with partitionBy().Partition columns have already be defined for the table. It is not necessary to use partitionBy().

　　b) saveAsTable 拋異常：提示你用 insertInto，忘了把日志保存了。暫時記着吧。

類似問題：

http://blog.csdn.net/lc0817/article/details/78211695?utm_source=debugrun&utm_medium=referral

https://stackoverflow.com/questions/32362206/spark-dataframe-saveastable-with-partitionby-creates-no-orc-file-in-hdfs

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark如何讀寫hive Spark訪問Hive表 Spark：從oracle讀取大表寫入hive實踐【翻譯】Flink Table Api & SQL — Hive —— 讀寫 Hive 表 spark讀寫Oracle、hive的艱辛之路（二）-Oracle的date類型 Spark讀取Hive表中文顯示亂碼的解決辦法 spark臨時表導入hive出現null Spark學習小記-（3）pyspark連接hive庫表sql操作通過SPARK將hadoop的文本數據導入hive的表 Spark無法讀取hive 3.x的表數據