Impala是Cloudera公司主導開發的新型查詢系統,它提供SQL語義,能查詢存儲在Hadoop的HDFS和HBase中的PB級大數據。已有的Hive系統雖然也提供了SQL語義,但由於Hive底層執行使用的是MapReduce引擎,仍然是一個批處理過程,難以滿足查詢的交互性。相比之下,Impala的最大特點也是最大賣點就是它的快速。
Impala是參照谷歌新三篇論文Dremel的開源實現,和Shark、Drill功能相似。Impala是Cloudera公司主導開發並開源。基於Hive並使用內存進行計算,兼顧數據倉庫,具有實時、批處理、多並發等優點。是使用CDH的首選PB級大數據實時查詢分析引擎。
谷歌舊三篇論文:mapreduce(mapreduce) 、 bigtable(HBase) 、 gfs(HDFS)
谷歌新三篇論文:Dremel(Impala)、Caffeine、Pergel。
同時,Impala由Cloudera公司開發,可以對存儲在HDFS、HBase的海量數據提供交互式查詢的SQL接口。除了和Hive使用相同的統一存儲平台,Impala還提供了一個熟悉的面向批量或實時查詢的統一平台。Impala的特點是查詢非常迅速,其性能大幅領先於Hive。
注意:Impala並沒有基於MapReduce的計算框架,這也是Impala可以大幅領先Hive的原因,Impala是定位是OLAP。