Impala自稱數據查詢效率比Hive快幾倍甚至數十倍,它之所以這么快的原因大致有以下幾點:
-
真正的MPP(大規模並行處理)查詢引擎。
-
使用C++開發而不是Java,降低運行負荷。
-
運行時代碼生成(LLVM IR),提高效率。
-
全新的執行引擎(不是Mapreduce)。
-
在執行SQL語句的時候,Impala不會把中間數據寫入到磁盤,而是在內存中完成了所有的處理。
-
使用Impala的時候,查詢任務會馬上執行而不是生產Mapreduce任務,這會節約大量的初始化時間。
-
Impala查詢計划解析器使用更智能的算法在多節點上分布式執行各個查詢步驟,同時避免了sorting和shuffle這兩個非常耗時的階段,這兩個階段往往是不需要的。
-
Impala擁有HDFS上面各個data block的信息,當它處理查詢的時候能夠在各個datanode上面更均衡的分發查詢。
-
另外一個關鍵原因是,Impala為每個查詢產生匯編級的代碼,當Impala在本地內存中運行的時候,這些匯編代碼執行效率比其它任何代碼框架都更快,因為代碼框架會增加額外的延遲。