一.部署准備
1.1 java安裝(略)
1.2 JDK配置
1. 命令行鍵入“cd /etc”進入etc目錄
2. 命令行鍵入“vi profile”打開profile文件
3. 敲擊鍵盤ctrl+F到文件末尾
4. 在末尾處,即第一個~的地方,敲擊鍵盤將以下內容輸入到文件
export JAVA_HOME=/usr/java/jre1.6.0_45
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
5. 鍵盤敲擊exc,命令行鍵入“:wq”,保存文件;
JDK配置成功:
1. 命令:java -version.出現版本信息
2. 命令:echo ${JAVA_HOME}出現配置路徑
二.kettle部署
1.在linux下某個目錄下創建一個文件夾,將你從官網上下載的kettle(我的是pdi-ce-5.0.1.A-stable.zip)解壓后放在該文件夾
下。
2.在解壓的路徑下找到kitchen.sh所在的路徑,進入該目錄,通過chmod +x *.sh賦予.sh文件執行權限。
下面是詳細說明:
鍵入./kitchen.sh,看輸入信息

BASH:/ kitchen.sh的:權限被拒絕
從上面可以看出kitchen.sh缺少執行權限,我們再次進入看看文件盒文件夾的權限

從上面可以看出,此目錄下面的.sh文件都沒有執行權限(X),接下來我們給這個文件夾下面的所有.sh文件賦執行的權限

由上面的我們可以看出,賦權成功!
再次./kitchen.sh,回車 看輸出信息--
可以看到上面出現 -rep,-user,-pass 這些kettle中的幫助信息,說明kettle部署成功!
3.輸入命令./kitchen.sh。如果出現幫助信息說明部署成功。
4.配置資源庫
用數據庫作用kettle資源庫會在數據庫中建立很多表,所以就選擇用文件資源庫的方式。如果單純的使用文件方式而非文件資源庫的方式,在job引用轉換的時候要選擇文件本地路徑,從windows移植到linux中路徑就出現問題,雖然可以手動修改一下,但是每次都修改就煩人了。


使用文件資源庫就簡單多了。
當然,使用資源庫就需要上傳.kettle文件夾到linux,Windows中的.kettle文件夾在Administrator中。如果在linux中使用過kettle的話,在用戶目錄下會自動建好.kettle文件夾,如果沒有使用過,可能還沒有這個文件夾,那就手動創建。不過創建了也並不可見。位置在/home/user/.kettle。我的是在kettle用戶根目錄下。.kettle文件夾是隱藏的通過“ls -a”命令查看隱藏文件夾。
我的資源庫內容:repositories.xml
- <?xml version="1.0" encoding="UTF-8"?>
- <repositories>
- <repository> <id>KettleFileRepository</id>
- <name>fileRepository</name>
- <description>filereposity</description>
- <base_directory>C:\Data\kettleRepository</base_directory>
- <read_only>N</read_only>
- <hides_hidden_files>N</hides_hidden_files>
- </repository> </repositories>
<base_directory>部分是在windows下的資源庫路徑,上傳到linux中需要改為linux下的資源庫路徑。然后可以將windows下設計好的轉換和job都放到這個文件夾下。
- <?xml version="1.0" encoding="UTF-8"?>
- <repositories>
- <repository> <id>KettleFileRepository</id>
- <name>fileRepository</name>
- <description>filereposity</description>
- <base_directory>/home/kettle/etl_kettle/kettle/etl_kettle/job</base_directory>
- <read_only>N</read_only>
- <hides_hidden_files>N</hides_hidden_files>
- </repository> </repositories>
最后是調用job腳本:/opt/kettle/data-integration/kitchen.sh -rep=fileRepository -job=testjob
指定資源庫ID和job名稱。
我的是獲取svn上的路徑。所以需要在linux下安裝svn。
命令:svn co http://svn.1234.cn:1111/svn/trunk/etl_kettle
更新svn文件夾的命令:svn up
svn的路徑是放在linux下的資源庫路徑 下
5.手動執行.sh腳本例子:
mmmm.sh
#!/bin/bash
#導入中文編碼
export LANG="en_US.UTF-8"
#讀取執行環境變量
#source ~/.bash_profile
#設置日期變量
to_date=`date +%Y%m%d`
##go to kettle soft dir
/home/kettle/etl_kettle/data-integration/kitchen.sh -rep etl_kettle -user admin -pass -dir -job job/ETL_mmmm_JOB -level=basic >/home/kettle/etl_kettle/etl_log/mmmm_${to_date}.log
echo "執行完成!"
命令:.mmmm.sh
6.設定crontab定時執行任務(ubuntu)
cron是一個Linux下的后台進程,用來定期的執行一些任務。因為我用的是Ubuntu,所以這篇文章中的所有命令也只能保證在Ubuntu下有效,但其他系統應該也差不多。
想要讓cron執行你指定的任務,首先就要編輯crontab文件。crontab是一個文本文件,用來存放你要運行的命令。你可以以下命令
- crontab -e
來打開你的用戶所屬的crontab文件。第一次用這個命令,會讓你選擇文本編輯器,我選的是vim。選定的編輯器也可以使用
- select-editor
命令來更改。這點命令行中已經有足夠的提示,就不多說了。
打開后的crontab文件類似這種樣子:
- # m h dom mon dow command
- */2 * * * * date >> ~/time.log
第二行是我為了測試寫的一個定期任務,它的意思是,每隔兩分鍾就執行 date >> ~/time.log 命令(記錄當前時間到time.log文件)。你可以把它加入你的crontab中,然后保存退出。可以在第二行寫你自己的設定任務。
我的任務:
40 16 * * * /home/kettle/etl_kettle/kettle/etl_kettle/shell/etl_mmmm.sh &
意思是在/home/kettle/etl_kettle/kettle/etl_kettle/shell/這個目錄下在后台(&是后台執行的意思)執行etl_mmmm.sh這個文件
保存了crontab之后,我們還需要重啟cron來應用這個計划任務。使用以下命令:
- sudo service cron restart
下面稍微解釋下crontab中每行的含義。crontab中的每一行代表一個定期執行的任務,分為6個部分。前5個部分表示何時執行命令,最后一個部分表示執行的命令。每個部分以空格分隔,除了最后一個部分(命令)可以在內部使用空格之外,其他部分都不能使用空格。前5個部分分別代表:分鍾,小時,天,月,星期,每個部分的取值范圍如下:
分鍾 0 - 59
小時 0 - 23
天 1 - 31
月 1 - 12
星期 0 - 6 0表示星期天
除了這些固定值外,還可以配合星號(*),逗號(,),和斜線(/)來表示一些其他的含義:
星號 表示任意值,比如在小時部分填寫 * 代表任意小時(每小時)
逗號 可以允許在一個部分中填寫多個值,比如在分鍾部分填寫 1,3 表示一分鍾或三分鍾
斜線 一般配合 * 使用,代表每隔多長時間,比如在小時部分填寫 */2 代表每隔兩分鍾。所以 */1 和 * 沒有區別
*/2 可以看成是能被2整除的任意值。
以下是一些例子(省略了命令部分):
- * * * * * # 每隔一分鍾執行一次任務
- 0 * * * * # 每小時的0點執行一次任務,比如6:00,10:00
- 6,10 * 2 * * # 每個月2號,每小時的6分和10分執行一次任務
- */3,*/5 * * * * # 每隔3分鍾或5分鍾執行一次任務,比如10:03,10:05,10:06
以上就是在cron中加入計划任務的基本知識。因為cron中的任務基本就是執行命令行,所以當然也會有權限問題。以上例子中的任務就是以你當前登錄用戶的權限執行的,如果你需要以root用戶執行某個任務,可以在crontab前加上sudo。
- sudo crontab -e
順帶一提,crontab文件對每個用戶都是不同的,所以剛才設置的定期看時間的任務,在這里是看不到的。因為我們沒有為root用戶增加這樣的計划任務。

