kettle(6.0)如何連接遠程集群(CDH5.1)?


最近因為公司業務需要,剛剛接觸了kettle.這不看不知道,一看才發現kettle的功能是在是太強大了,讓我有種相見恨晚的感覺。由於主要是應用kettle與hadoop集群和hive連接進行數據處理。所以這里簡單敘述下kettle與hadoop集群連接時的大致步驟:

1.雙擊kettle(即data-integeration)目錄下的spoon.bat,啟動kettle

2.kettle啟動后,新建一個作業(job)。可以命名為load_hdfs

3.在load_hdfs中有個Hadoop cluster子項,右鍵->New cluster,創建一個新集群

4.在新集群創建面板上填寫好各個組件的IP+Port等信息

5.點擊“測試”按鈕,測試新集群能否正常連接

一般若你的kettle剛安裝還沒有配置過的話,這里會報錯顯示連接失敗。這是正常的,接下來我們就要在kettle包里配置一下相關信息

6.首先到{$KETTLE_HOME}/plugins/pentaho-big-data-plugin/目錄下找到名為plugin.properties的配置文件,並用notepad++(不一定非得用notepad++,只要是能打開此類文本的編輯器都可以)打開。文件位置和內容如下圖所示:

捕獲

 

捕獲

上圖中標藍部分就是我們需要配置的信息了,在此處填遠程集群的版本,如我的是cdh5.1,所以填的是cdh51.

7.保存修改,然后轉到data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations下,我這里只有

cdh54,所以我就直接用了這個配置,即上面配置文件中修改為cdh54(親測可用)。cdh54文件夾內容如圖,

捕獲

8.接下來是最后一步,就是將上圖中的.xml文件替換為遠程集群中的相對應的文件

9.配置完成后,重啟kettle,即再次執行1-5步(如果沒保存作業的話),會發現集群連接成功

捕獲

至此,hadoop集群就連接成功了。

 

 

 

 

 

Technorati 標簽: 大數據, kettle


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM