Spark SQL 讀到的記錄數與 hive 讀到的不一致

本文轉載自查看原文 2019-06-10 11:10 817 hive/ Hive/ Hadoop/ Spark

問題：我用 sqoop 把 Mysql 中的數據導入到 hive，使用了--delete-target-dir --hive-import --hive-overwrite 等參數，執行了兩次。 mysql 中只有 20 條記錄。在 hive shell 中，查詢導入到的表的記錄，得到結果 20 條，是對的。

然而在 spark-shell 中，使用 spark sql 得到的結果卻是 40 條。

又執行了一次 sqoop 的導入，hive 中仍然查詢到 20 條，而 spark shell 中卻得到了 60 條！！

查了一下 HDFS 上，結果發現有 3 個文件

后來在網上看到有說 Hortonworks 中，用 Ambari 部署的 hive（V3.0），默認是開啟 ACID 的，Spark 不支持 hive 的 ACID。更改 hive 的如下參數，關閉 ACID 功能。

hive.strict.managed.tables=false 
hive.create.as.insert.only=false 
metastore.create.as.acid=false

刪除 hive 中的表，重新導入。

可以看到，表目錄下的文件名變了，不是原來的 base_ 開頭的了。

用 overwrite 的方式導入多次，也還是只有這兩個文件，spark sql 讀取的數據也沒有出現翻倍的現象。

至此，問題算是解決了。但是不明白為什么 hive 開啟 ACID 時，盡管表目錄下有多個文件，但是 hive shell 能知道到底哪個是正確的，而 spark 則不知道。估計只有研究源碼才能解決問題了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spark與hive引擎差異致結果集不一致 Hive on spark和Hive on mr在處理orc格式表格時數據不一致問題探究 Hive on Spark 和Hive on mr執行結果不一致原因剖析 Spark解決SQL和RDDjoin結果不一致問題（工作實錄）同樣的sql，mysql 每次查詢結果順序不一致解決ESXi時區不一致 Hbase數據不一致修復 WIN與MAC時間不一致 RocketMQ訂閱關系不一致警告:范圍不一致