最近因為公司業務需要,剛剛接觸了kettle.這不看不知道,一看才發現kettle的功能是在是太強大了,讓我有種相見恨晚的感覺。由於主要是應用kettle與hadoop集群和hive連接進行數據處理。所以這里簡單敘述下kettle與hadoop集群連接時的大致步驟:
1.雙擊kettle(即data-integeration)目錄下的spoon.bat,啟動kettle
2.kettle啟動后,新建一個作業(job)。可以命名為load_hdfs
3.在load_hdfs中有個Hadoop cluster子項,右鍵->New cluster,創建一個新集群
4.在新集群創建面板上填寫好各個組件的IP+Port等信息
5.點擊“測試”按鈕,測試新集群能否正常連接
一般若你的kettle剛安裝還沒有配置過的話,這里會報錯顯示連接失敗。這是正常的,接下來我們就要在kettle包里配置一下相關信息
6.首先到{$KETTLE_HOME}/plugins/pentaho-big-data-plugin/目錄下找到名為plugin.properties的配置文件,並用notepad++(不一定非得用notepad++,只要是能打開此類文本的編輯器都可以)打開。文件位置和內容如下圖所示:
上圖中標藍部分就是我們需要配置的信息了,在此處填遠程集群的版本,如我的是cdh5.1,所以填的是cdh51.
7.保存修改,然后轉到data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations下,我這里只有
cdh54,所以我就直接用了這個配置,即上面配置文件中修改為cdh54(親測可用)。cdh54文件夾內容如圖,
8.接下來是最后一步,就是將上圖中的.xml文件替換為遠程集群中的相對應的文件
9.配置完成后,重啟kettle,即再次執行1-5步(如果沒保存作業的話),會發現集群連接成功
至此,hadoop集群就連接成功了。