1.運行MR,得出HDFS路徑下數據
2.創建 Hive 表 映射 HDFS下的數據
3.為數據創建分區,在hive下執行 source 分區表;
TIPS:結果集的時間,必須在分區范圍內;
可以理解一下:hive sql 是在創建表以及結果的時候分區;
MR運行結果,必須額外分區;額外分區的話,就是mr,MR每天跑數據,自行插入到分區;
此外,Hive 對數據的定義類型 有很大關系,如果數據格式超出范圍,則數據顯示為null;例如:
yield_rate decimal(10, 10) ; 此時,如果計算出來的數據為2.22,則該數據無法傳入,因為數據”不規范“,原因是結果字段要去傳入 10位小數的數據 ,但是該數據不符合"規則",故無法傳入。