hive引擎的選擇:tez和spark


背景

mr引擎在hive 2中將被棄用。官方推薦使用tez或spark等引擎。

選擇

tez

使用有向無環圖。內存式計算。

spark

可以同時作為批式和流式的處理引擎,減少學習成本。

問題&&不便

tez:

在hive sql中使用了union 或 join操作

tez會將任務切分,每個小任務,創建一個文件文件夾,如下:

這就會造成一個非常嚴重的問題,假如這張表的下文,使用這張表沒有用tez,而是使用spark或者mr,

這兩種引擎是不會遍歷子文件夾下的內容的。查出來的數據為0。而我們很難約束,其他人使用同一種引擎,

所以tez在使用中拋棄。我們最中選擇了spark引擎。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM