背景
mr引擎在hive 2中將被棄用。官方推薦使用tez或spark等引擎。
選擇
tez
使用有向無環圖。內存式計算。
spark
可以同時作為批式和流式的處理引擎,減少學習成本。
問題&&不便
tez:
在hive sql中使用了union 或 join操作
tez會將任務切分,每個小任務,創建一個文件文件夾,如下:
這就會造成一個非常嚴重的問題,假如這張表的下文,使用這張表沒有用tez,而是使用spark或者mr,
這兩種引擎是不會遍歷子文件夾下的內容的。查出來的數據為0。而我們很難約束,其他人使用同一種引擎,
所以tez在使用中拋棄。我們最中選擇了spark引擎。