kettle(6.0)如何連接遠程集群(CDH5.1)?

本文轉載自查看原文 2016-11-09 11:19 2397

最近因為公司業務需要，剛剛接觸了kettle.這不看不知道，一看才發現kettle的功能是在是太強大了，讓我有種相見恨晚的感覺。由於主要是應用kettle與hadoop集群和hive連接進行數據處理。所以這里簡單敘述下kettle與hadoop集群連接時的大致步驟:

1.雙擊kettle(即data-integeration)目錄下的spoon.bat,啟動kettle

2.kettle啟動后，新建一個作業（job）。可以命名為load_hdfs

3.在load_hdfs中有個Hadoop cluster子項，右鍵->New cluster,創建一個新集群

4.在新集群創建面板上填寫好各個組件的IP+Port等信息

5.點擊“測試”按鈕，測試新集群能否正常連接

一般若你的kettle剛安裝還沒有配置過的話，這里會報錯顯示連接失敗。這是正常的，接下來我們就要在kettle包里配置一下相關信息

6.首先到{$KETTLE_HOME}/plugins/pentaho-big-data-plugin/目錄下找到名為plugin.properties的配置文件，並用notepad++（不一定非得用notepad++，只要是能打開此類文本的編輯器都可以）打開。文件位置和內容如下圖所示：

上圖中標藍部分就是我們需要配置的信息了，在此處填遠程集群的版本，如我的是cdh5.1，所以填的是cdh51.

7.保存修改，然后轉到data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations下，我這里只有

cdh54,所以我就直接用了這個配置，即上面配置文件中修改為cdh54（親測可用）。cdh54文件夾內容如圖，

8.接下來是最后一步，就是將上圖中的.xml文件替換為遠程集群中的相對應的文件

9.配置完成后，重啟kettle，即再次執行1-5步（如果沒保存作業的話）,會發現集群連接成功

至此，hadoop集群就連接成功了。

Technorati 標簽: 大數據, kettle

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 關於kettle連接cdh集群hive的相關報錯。 Kettle集成CDH6.3.2 基於yum安裝CDH集群 Docker部署CDH集群 CDH集群安裝 CDH 5.9.3 集群配置 curl 命令遠程連接 kubernetes 集群 CDH 6.0.1 集群搭建「Process」 CDH集群的配置優化須知 kettle連接hive