1、連接Hadoop集群與MySQL
1-1 下載當前集群的Hbase配置文件
1-2 解壓改配置文件至cdh510目錄下
1-3 修改D:\kettle\data-integration\plugins\pentaho-big-data-plugin下plugin.properties配置
1-4 在Kettle中配置Hadoop集群
在測試連接后會發現User Home Directory Access 和 Root Directory Access 是報錯的,這個可能是因為我們是在非集群的一台主機上操作Hadoop數據,會導致沒有權限向Hbase內寫入數據,沒有嘗試出一個確切的解決方案,但是不影響讀取Hbase數據,所以這里暫時不管它。(有知道解決辦法的大佬的話,求指導~~)
1-5 連接Mysql數據庫
2、Kettle流程
2-1 Hbase數據讀取
2-2 行列變換
由於Hbase不是關系型數據庫,所以我們要將其字段進行行列變換,否則導出數據會如下圖所示
選中核心對象——轉換——列轉行
這里推薦一篇博文,它的示例將列轉行這個組件解釋得很形象:https://www.cnblogs.com/OliverQin/p/5871330.html
然后對流中字段進行改名,改成與轉出Mysql表對應的字段,PS:此處字段對應要准確
2-3 表輸出
將數據輸出到目標Mysql表內
2-4 運行結果
PS:摸索學習中,歡迎相互討論和指導~