Pentaho Kettle 7.1 讀取 Hive 數據到 MySql
目錄
1、hive jar包的存放位置
在kettle的安裝目錄中找到hadoop-configurations文件夾,如下:

注意:文件夾名稱hadoop-configurations 和 hdp25 需要配置到配置文件中,稍后說明。
Hive的jar包存放在hdp25文件夾下面的lib文件夾。

2、下載對應的hive jar包
在服務器上找到所有hive的相關jar包,下載下來放入hadoop-configurations目錄下的hdp25的lib文件夾中。
通過CDH安裝的hive jar包一般保存在/opt/cloudera/parcels/CDH/lib/hive/lib中。

下載所有hive開頭的jar包,放入到data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25\lib路徑中。
3、Hadoop所需要的jar包下載地址
JDK版本的要求:
Hadoop 2.7 以及之后的版本,需要JDK 7;
Hadoop 2.6 以及之前的版本,支持JDK 6;
對於Hadoop1.x.x版本,只需要引入1個jar:
hadoop-core
對於Hadoop2.x.x版本,需要引入4個jar:
hadoop-common
hadoop-hdfs
hadoop-mapreduce-client-core
hadoop-client
jdk.tools(視情況需要,我沒有使用也能夠連通)
需要的Jar包 (對應版本:2.x.x)
Maven倉庫:https://mvnrepository.com/artifact/org.apache.hadoop

4、下載Hadoop所需要的jar包
查看Hadoop安裝版本 命令:hadoop version

以Apache Hadoop Common包為例:


選擇對應版本的jar包,點擊下載。
同樣下載其他3個jar包,放到 data-integration\lib 目錄中。

5、修改plugin.properties文件

找到 data-integration\plugins\pentaho-big-data-plugin 目錄中的 plugin.properties 文件。

修改配置為上面提到的安裝目錄對應的文件夾名稱。

6、重啟kettle新建DB連接
修改配置后以及新增jar包后需要重啟kettle才生效。
重啟后嘗試建立DB連接如下:
主對象樹–》DB連接右鍵新建—》填寫相關參數(參數與自己的hivesever2的ip端口數據庫名以及可登陸linux系統訪問hiveserver2的用戶名對應)

7、新建轉換
表輸入 à 表輸出

表輸入:

表輸出:

執行:

