Pentaho Kettle 7.1 讀取 Hive 數據到 MySql


Pentaho Kettle 7.1 讀取 Hive 數據到 MySql

 

目錄

1、hive jar包的存放位置    1

2、下載對應的hive jar包    1

3、Hadoop所需要的jar包下載地址    2

4、下載Hadoop所需要的jar包    3

5、修改plugin.properties文件    5

6、重啟kettle新建DB連接    6

7、新建轉換    6

8、參考文檔    9

 

 

1、hive jar包的存放位置

在kettle的安裝目錄中找到hadoop-configurations文件夾,如下:

注意:文件夾名稱hadoop-configurations 和 hdp25 需要配置到配置文件中,稍后說明。

Hive的jar包存放在hdp25文件夾下面的lib文件夾。

 

2、下載對應的hive jar包

在服務器上找到所有hive的相關jar包,下載下來放入hadoop-configurations目錄下的hdp25的lib文件夾中。

通過CDH安裝的hive jar包一般保存在/opt/cloudera/parcels/CDH/lib/hive/lib中。

下載所有hive開頭的jar包,放入到data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25\lib路徑中。

 

3、Hadoop所需要的jar包下載地址

JDK版本的要求:

Hadoop 2.7 以及之后的版本,需要JDK 7;

Hadoop 2.6 以及之前的版本,支持JDK 6;

對於Hadoop1.x.x版本,只需要引入1個jar:

hadoop-core

對於Hadoop2.x.x版本,需要引入4個jar:

hadoop-common

hadoop-hdfs

hadoop-mapreduce-client-core

hadoop-client

jdk.tools(視情況需要,我沒有使用也能夠連通)

需要的Jar包 (對應版本:2.x.x)

Maven倉庫:https://mvnrepository.com/artifact/org.apache.hadoop

 

4、下載Hadoop所需要的jar包

查看Hadoop安裝版本 命令:hadoop version

以Apache Hadoop Common包為例:

 

選擇對應版本的jar包,點擊下載。

同樣下載其他3個jar包,放到 data-integration\lib 目錄中。

 

5、修改plugin.properties文件

找到 data-integration\plugins\pentaho-big-data-plugin 目錄中的 plugin.properties 文件。

修改配置為上面提到的安裝目錄對應的文件夾名稱。

 

6、重啟kettle新建DB連接

修改配置后以及新增jar包后需要重啟kettle才生效。

重啟后嘗試建立DB連接如下:

主對象樹–》DB連接右鍵新建—》填寫相關參數(參數與自己的hivesever2的ip端口數據庫名以及可登陸linux系統訪問hiveserver2的用戶名對應)

 

7、新建轉換

表輸入 à 表輸出

表輸入:

表輸出:

執行:

 

8、參考文檔


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM