spark SQL和hive到底什么關系

本文轉載自查看原文 2020-09-22 16:00 562 大數據

Hive是一種基bai於duHDFS的數據倉庫，並且提供了基於SQL模型的，針對存儲了大數zhi據的數據倉庫，進行分布式dao交互查詢的查詢引擎。

SparkSQL並不能完全替代Hive，它替代的是Hive的查詢引擎，SparkSQL由於其底層基於Spark自身的基於內存的特點，因此速度是Hive查詢引擎的數倍以上，Spark本身是不提供存儲的，所以不可能替代Hive作為數據倉庫的這個功能。

SparkSQL相較於Hive的另外一個優點，是支持大量不同的數據源，包括hive、json、parquet、jdbc等等。SparkSQL由於身處Spark技術堆棧內，基於RDD來工作，因此可以與Spark的其他組件無縫整合使用，配合起來實現許多復雜的功能。比如SparkSQL支持可以直接針對hdfs文件執行sql語句。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Mysql和Hadoop+Hive有什么關系？ Spark SQL與Hive on Spark的比較 Hadoop、Hive、Spark 之間關系 hive spark版本對應關系 Hive、Spark SQL、Impala比較 Presto、Spark SQL、Hive的比較頻率和相位有什么關系 hive Spark SQL分析窗口函數 spark-sql 與hive 常用函數 Spark(Hive) SQL中UDF的使用（Python）