1.Hive不存儲數據,Hive需要分析計算的數據,以及計算結果后的數據實際存儲在分布式系統上,如HDFS上。
2.Hive某種程度來說也不進行數據計算,只是個解釋器,只是將用戶需要對數據處理的邏輯,通過SQL編程提交后解釋成MapReduce程序,然后將這個MR程序提交給Yarn進行調度執行。所以實際進行分布式運算的是MapReduce程序
3.因為Hive為了能操作HDFS上的數據集,那么他需要知道數據的切分格式,如行列分隔符,存儲類型,是否壓縮,數據的存儲地址等信息。為了方便以后操作所以他需要將這些信息通過一張表存儲起來,然后將這張表(元數據)存儲到mysql中。為了啥存儲到mysql里(實際是遠程mysql),因為hive本身就是一個解釋器,所以他不存儲數據 。
資料連接:https://blog.csdn.net/qq_26442553/article/details/80206562
