linux環境下kettle部署(JDK安裝配置,kettle安裝配置,資源庫配置,定時執行job)


一.部署准備

1.1 java安裝(略)

1.2 JDK配置

        1.     命令行鍵入“cd /etc”進入etc目錄

2.     命令行鍵入“vi profile”打開profile文件

3.     敲擊鍵盤ctrl+F到文件末尾

4.     在末尾處,即第一個~的地方,敲擊鍵盤將以下內容輸入到文件

export JAVA_HOME=/usr/java/jre1.6.0_45

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

     5.     鍵盤敲擊exc,命令行鍵入“:wq”,保存文件;

   JDK配置成功:

      1. 命令:java -version.出現版本信息

      2. 命令:echo ${JAVA_HOME}出現配置路徑

二.kettle部署

1.在linux下某個目錄下創建一個文件夾,將你從官網上下載的kettle(我的是pdi-ce-5.0.1.A-stable.zip)解壓后放在該文件夾

 下。

2.在解壓的路徑下找到kitchen.sh所在的路徑,進入該目錄,通過chmod +x *.sh賦予.sh文件執行權限。

下面是詳細說明:

鍵入./kitchen.sh,看輸入信息

BASH:/ kitchen.sh的:權限被拒絕

從上面可以看出kitchen.sh缺少執行權限,我們再次進入看看文件盒文件夾的權限

從上面可以看出,此目錄下面的.sh文件都沒有執行權限(X),接下來我們給這個文件夾下面的所有.sh文件賦執行的權限

由上面的我們可以看出,賦權成功!

再次./kitchen.sh,回車 看輸出信息--

可以看到上面出現 -rep,-user,-pass 這些kettle中的幫助信息,說明kettle部署成功!

3.輸入命令./kitchen.sh。如果出現幫助信息說明部署成功。

4.配置資源庫

用數據庫作用kettle資源庫會在數據庫中建立很多表,所以就選擇用文件資源庫的方式。如果單純的使用文件方式而非文件資源庫的方式,在job引用轉換的時候要選擇文件本地路徑,從windows移植到linux中路徑就出現問題,雖然可以手動修改一下,但是每次都修改就煩人了。

 

 

 使用文件資源庫就簡單多了。

當然,使用資源庫就需要上傳.kettle文件夾到linux,Windows中的.kettle文件夾在Administrator中。如果在linux中使用過kettle的話,在用戶目錄下會自動建好.kettle文件夾,如果沒有使用過,可能還沒有這個文件夾,那就手動創建。不過創建了也並不可見。位置在/home/user/.kettle。我的是在kettle用戶根目錄下。.kettle文件夾是隱藏的通過“ls -a”命令查看隱藏文件夾。

我的資源庫內容:repositories.xml

Xml代碼   收藏代碼
  1. <?xml version="1.0" encoding="UTF-8"?>  
  2. <repositories>  
  3.   <repository>    <id>KettleFileRepository</id>  
  4.     <name>fileRepository</name>  
  5.     <description>filereposity</description>  
  6.    <base_directory>C&#x3a;&#x5c;Data&#x5c;kettleRepository</base_directory>  
  7.     <read_only>N</read_only>  
  8.     <hides_hidden_files>N</hides_hidden_files>  
  9.   </repository>  </repositories>  

 

 <base_directory>部分是在windows下的資源庫路徑,上傳到linux中需要改為linux下的資源庫路徑。然后可以將windows下設計好的轉換和job都放到這個文件夾下。

Xml代碼   收藏代碼
  1. <?xml version="1.0" encoding="UTF-8"?>  
  2. <repositories>  
  3.   <repository>    <id>KettleFileRepository</id>  
  4.     <name>fileRepository</name>  
  5.     <description>filereposity</description>  
  6.    <base_directory>/home/kettle/etl_kettle/kettle/etl_kettle/job</base_directory>  
  7.     <read_only>N</read_only>  
  8.     <hides_hidden_files>N</hides_hidden_files>  
  9.   </repository>  </repositories>  

最后是調用job腳本:/opt/kettle/data-integration/kitchen.sh -rep=fileRepository -job=testjob

指定資源庫ID和job名稱。

我的是獲取svn上的路徑。所以需要在linux下安裝svn。

命令:svn co http://svn.1234.cn:1111/svn/trunk/etl_kettle

更新svn文件夾的命令:svn up 

svn的路徑是放在linux下的資源庫路徑 下

5.手動執行.sh腳本例子:

mmmm.sh

#!/bin/bash

#導入中文編碼
export LANG="en_US.UTF-8"

#讀取執行環境變量
#source ~/.bash_profile

#設置日期變量
to_date=`date +%Y%m%d`

##go to kettle soft dir
/home/kettle/etl_kettle/data-integration/kitchen.sh -rep etl_kettle -user admin -pass -dir -job job/ETL_mmmm_JOB -level=basic >/home/kettle/etl_kettle/etl_log/mmmm_${to_date}.log

echo "執行完成!"

命令:.mmmm.sh

6.設定crontab定時執行任務(ubuntu)

cron是一個Linux下的后台進程,用來定期的執行一些任務。因為我用的是Ubuntu,所以這篇文章中的所有命令也只能保證在Ubuntu下有效,但其他系統應該也差不多。

 

想要讓cron執行你指定的任務,首先就要編輯crontab文件。crontab是一個文本文件,用來存放你要運行的命令。你可以以下命令

 

  1. crontab -e  

 

來打開你的用戶所屬的crontab文件。第一次用這個命令,會讓你選擇文本編輯器,我選的是vim。選定的編輯器也可以使用

 

  1. select-editor  

 

命令來更改。這點命令行中已經有足夠的提示,就不多說了。

打開后的crontab文件類似這種樣子:

 

  1. # m h  dom mon dow   command  
  2. */2 * * * * date >> ~/time.log  

 

第二行是我為了測試寫的一個定期任務,它的意思是,每隔兩分鍾就執行 date >> ~/time.log 命令(記錄當前時間到time.log文件)。你可以把它加入你的crontab中,然后保存退出。可以在第二行寫你自己的設定任務。

我的任務:

40 16 * * * /home/kettle/etl_kettle/kettle/etl_kettle/shell/etl_mmmm.sh &

意思是在/home/kettle/etl_kettle/kettle/etl_kettle/shell/這個目錄下在后台(&是后台執行的意思)執行etl_mmmm.sh這個文件

保存了crontab之后,我們還需要重啟cron來應用這個計划任務。使用以下命令:

 

  1. sudo service cron restart  

 

下面稍微解釋下crontab中每行的含義。crontab中的每一行代表一個定期執行的任務,分為6個部分。前5個部分表示何時執行命令,最后一個部分表示執行的命令。每個部分以空格分隔,除了最后一個部分(命令)可以在內部使用空格之外,其他部分都不能使用空格。前5個部分分別代表:分鍾,小時,天,月,星期,每個部分的取值范圍如下:

 

分鍾          0 - 59

小時          0 - 23

天              1 - 31

月              1 - 12

星期          0 - 6       0表示星期天

 

除了這些固定值外,還可以配合星號(*),逗號(,),和斜線(/)來表示一些其他的含義:

 

星號          表示任意值,比如在小時部分填寫 * 代表任意小時(每小時)

逗號          可以允許在一個部分中填寫多個值,比如在分鍾部分填寫 1,3 表示一分鍾或三分鍾

斜線          一般配合 * 使用,代表每隔多長時間,比如在小時部分填寫 */2 代表每隔兩分鍾。所以 */1 和 * 沒有區別

                  */2 可以看成是能被2整除的任意值。

 

以下是一些例子(省略了命令部分):

 

  1. * * * * *                  # 每隔一分鍾執行一次任務  
  2. 0 * * * *                  # 每小時的0點執行一次任務,比如6:00,10:00  
  3. 6,10 * 2 * *            # 每個月2號,每小時的6分和10分執行一次任務  
  4. */3,*/5 * * * *          # 每隔3分鍾或5分鍾執行一次任務,比如10:03,10:05,10:06  

 

以上就是在cron中加入計划任務的基本知識。因為cron中的任務基本就是執行命令行,所以當然也會有權限問題。以上例子中的任務就是以你當前登錄用戶的權限執行的,如果你需要以root用戶執行某個任務,可以在crontab前加上sudo。

 

  1. sudo crontab -e  

 

順帶一提,crontab文件對每個用戶都是不同的,所以剛才設置的定期看時間的任務,在這里是看不到的。因為我們沒有為root用戶增加這樣的計划任務。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM