impala為什么比hive快

本文轉載自查看原文 2019-09-25 17:59 511 架構

Impala自稱數據查詢效率比Hive快幾倍甚至數十倍，它之所以這么快的原因大致有以下幾點：

全新的執行引擎（不是Mapreduce）。
在執行SQL語句的時候，Impala不會把中間數據寫入到磁盤，而是在內存中完成了所有的處理。
使用Impala的時候，查詢任務會馬上執行而不是生產Mapreduce任務，這會節約大量的初始化時間。
Impala查詢計划解析器使用更智能的算法在多節點上分布式執行各個查詢步驟，同時避免了sorting和shuffle這兩個非常耗時的階段，這兩個階段往往是不需要的。
Impala擁有HDFS上面各個data block的信息，當它處理查詢的時候能夠在各個datanode上面更均衡的分發查詢。
另外一個關鍵原因是，Impala為每個查詢產生匯編級的代碼，當Impala在本地內存中運行的時候，這些匯編代碼執行效率比其它任何代碼框架都更快，因為代碼框架會增加額外的延遲。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Impala與Hive的比較 Impala和Hive的區別 Impala和Hive的關系（詳解） impala操作hase、hive hive、impala集成ldap Impala和Hive的關系（詳解） Impala 加載Hive的UDF Hive和Impala的區別 Hbase | Hive | Impala | Kudu 區別 Hive、Spark SQL、Impala比較