使用shell腳本定時采集日志數據到hdfs分布式文件系統

本文轉載自查看原文 2018-05-08 21:25 1750 Hadoop

1、首先對linux操作系統的crontab命令進行熟悉和了解：

1、crond是linux下用來周期性的執行某種任務或等待處理某些事件的一個守護進程，與windows下的計划任務類似，當安裝完成操作系統后，默認會安裝此服務工具，並且會自動啟動crond進程，crond進程每分鍾會定期檢查是否有要執行的任務，如果有要執行的任務，則自動執行該任務。
2、Linux下的任務調度分為兩類，系統任務調度和用戶任務調度。
　　a、系統任務調度：系統周期性所要執行的工作，比如寫緩存數據到硬盤、日志清理等。在/etc目錄下有一個crontab文件，這個就是系統任務調度的配置文件。
　　b、用戶任務調度：用戶定期要執行的工作，比如用戶數據備份、定時郵件提醒等。用戶可以使用 crontab 工具來定制自己的計划任務。所有用戶定義的crontab 文件都被保存在 /var/spool/cron目錄中。其文件名與用戶名一致。
　　c、使用者權限文件：/etc/cron.deny，該文件中所列用戶不允許使用crontab命令。
　　d、使用者權限文件：/etc/cron.allow，該文件中所列用戶允許使用crontab命令。
　　e、使用者權限文件：/var/spool/cron/，所有用戶crontab文件存放的目錄,以用戶名命名。
3、crontab文件的含義：
　　a、用戶所建立的crontab文件中，每一行都代表一項任務，每行的每個字段代表一項設置，它的格式共分為六個字段，前五段是時間設定段，第六段是要執行的命令段，格式如下：
　　　　minute   hour   day   month   week   command；
　　b、其中：
　　　　minute：表示分鍾，可以是從0到59之間的任何整數。
　　　　hour：表示小時，可以是從0到23之間的任何整數。
　　　　day：表示日期，可以是從1到31之間的任何整數。
　　　　month：表示月份，可以是從1到12之間的任何整數。
　　　　week：表示星期幾，可以是從0到7之間的任何整數，這里的0或7代表星期日。
　　　　command：要執行的命令，可以是系統命令，也可以是自己編寫的腳本文件。
　　c、在以上各個字段中，還可以使用以下特殊字符：
　　　　星號（*）：代表所有可能的值，例如month字段如果是星號，則表示在滿足其它字段的制約條件后每月都執行該命令操作。
　　　　逗號（,）：可以用逗號隔開的值指定一個列表范圍，例如，“1,2,5,7,8,9”
　　　　中杠（-）：可以用整數之間的中杠表示一個整數范圍，例如“2-6”表示“2,3,4,5,6”
　　　　正斜線（/）：可以用正斜線指定時間的間隔頻率，例如“0-23/2”表示每兩小時執行一次。同時正斜線可以和星號一起使用，例如*/10，如果用在minute字段，表示每十分鍾執行一次。
4、安裝crontab：
　　[root@slaver1 hadoop]# yum install crontabs
　　[root@slaver1 hadoop]# service crond status          #查看狀態
　　[root@slaver1 hadoop]# /sbin/service crond stop     #關閉服務
　　[root@slaver1 hadoop]# /sbin/service crond start    #啟動服務
　　[root@slaver1 hadoop]# /sbin/service crond restart  #重啟服務
　　[root@slaver1 hadoop]# /sbin/service crond reload   #重新載入配置
　　[root@slaver1 hadoop]# service crond start          #手動啟動crontab服務
　　[root@slaver1 hadoop]# ntsysv                       #查看crontab服務是否已設置為開機啟動，執行命令
　　[root@slaver1 hadoop]# chkconfig –level 35 crond on #加入開機自動啟動
5、crontab命令詳解:
　　a、命令格式：
　　　　crontab [-u user] file
　　　　crontab [-u user] [ -e | -l | -r ]
　　b、命令功能：
　　　　通過crontab 命令，我們可以在固定的間隔時間執行指定的系統指令或 shell script腳本。時間間隔的單位可以是分鍾、小時、日、月、周及以上的任意組合。這個命令非常設合周期性的日志分析或數據備份等工作。
　　c、命令參數：
　　　　-u user：用來設定某個用戶的crontab服務，例如，“-u ixdba”表示設定ixdba用戶的crontab服務，此參數一般有root用戶來運行。
　　　　file：file是命令文件的名字,表示將file做為crontab的任務列表文件並載入crontab。如果在命令行中沒有指定這個文件，crontab命令將接受標准輸入（鍵盤）上鍵入的命令，並將它們載入crontab。
　　　　-e：編輯某個用戶的crontab文件內容。如果不指定用戶，則表示編輯當前用戶的crontab文件。
　　　　-l：顯示某個用戶的crontab文件內容，如果不指定用戶，則表示顯示當前用戶的crontab文件內容。
　　　　-r：從/var/spool/cron目錄中刪除某個用戶的crontab文件，如果不指定用戶，則默認刪除當前用戶的crontab文件。
　　　　-i：在刪除用戶的crontab文件時給確認提示。
　　d、常用方法：
　　　　1). 創建一個新的crontab文件
　　　　　　在考慮向cron進程提交一個crontab文件之前，首先要做的一件事情就是設置環境變量EDITOR。cron進程根據它來確定使用哪個編輯器編輯crontab文件。9 9 %的UNIX和LINUX用戶都使用vi，如果你也是這樣，那么你就編輯$ HOME目錄下的. profile文件，在其中加入這樣一行：
　　　　　　EDITOR=vi; export EDITOR
　　　　　　然后保存並退出。不妨創建一個名為<user> cron的文件，其中<user>是用戶名，例如， davecron。在該文件中加入如下的內容。
      　　　　# (put your own initials here)echo the date to the console every
      　　　　# 15minutes between 6pm and 6am
     　　　　 0,15,30,45 18-06 * * * /bin/echo 'date' > /dev/console
    　　　　保存並退出。確信前面5個域用空格分隔。
　　　　　　在上面的例子中，系統將每隔1 5分鍾向控制台輸出一次當前時間。如果系統崩潰或掛起，從最后所顯示的時間就可以一眼看出系統是什么時間停止工作的。在有些系統中，用tty1來表示控制台，可以根據實際情況對上面的例子進行相應的修改。為了提交你剛剛創建的crontab文件，可以把這個新創建的文件作為cron命令的參數：
     　　　　$ crontab davecron
　　　　　　現在該文件已經提交給cron進程，它將每隔1 5分鍾運行一次。
　　　　　　同時，新創建文件的一個副本已經被放在/var/spool/cron目錄中，文件名就是用戶名(即dave)。
　　　　2). 列出crontab文件
  　　　　 為了列出crontab文件，可以用：
    　　　　 $ crontab -l
     　　　　0,15,30,45,18-06 * * * /bin/echo `date` > dev/tty1
　　　　　　你將會看到和上面類似的內容。可以使用這種方法在$ H O M E目錄中對crontab文件做一備份：
    　　 $ crontab -l > $HOME/mycron
    　　　　這樣，一旦不小心誤刪了crontab文件，可以用上一節所講述的方法迅速恢復。
　　　　3). 編輯crontab文件
  　　　　 如果希望添加、刪除或編輯crontab文件中的條目，而E D I TO R環境變量又設置為v i，那么就可以用v i來編輯crontab文件，相應的命令為：
   　　  $ crontab -e
　　　　　　可以像使用v i編輯其他任何文件那樣修改crontab文件並退出。如果修改了某些條目或添加了新的條目，那么在保存該文件時， c r o n會對其進行必要的完整性檢查。如果其中的某個域出現了超出允許范圍的值，它會提示你。
　　　　　　我們在編輯crontab文件時，沒准會加入新的條目。例如，加入下面的一條：
   　　　　 # DT:delete core files,at 3.30am on 1,7,14,21,26,26 days of each month
    　　 30 3 1,7,14,21,26 * * /bin/find -name "core' -exec rm {} \;
　　　　現在保存並退出。最好在crontab文件的每一個條目之上加入一條注釋，這樣就可以知道它的功能、運行時間，更為重要的是，知道這是哪位用戶的作業。
　　　　現在讓我們使用前面講過的crontab -l命令列出它的全部信息：
   　　　　 $ crontab -l 
   　　　　 # (crondave installed on Tue May 4 13:07:43 1999)
   　　　　 # DT:ech the date to the console every 30 minites
   　　　　0,15,30,45 18-06 * * * /bin/echo `date` > /dev/tty1
   　　　　 # DT:delete core files,at 3.30am on 1,7,14,21,26,26 days of each month
   　　　　 30 3 1,7,14,21,26 * * /bin/find -name "core' -exec rm {} \;
　　　　4). 刪除crontab文件
　　　　　　要刪除crontab文件，可以用：
   　　　　 $ crontab -r
　　　　5). 恢復丟失的crontab文件
　　　　　　如果不小心誤刪了crontab文件，假設你在自己的$ H O M E目錄下還有一個備份，那么可以將其拷貝到/var/spool/cron/<username>，其中<username>是用戶名。如果由於權限問題無法完成拷貝，可以用：
    　　　 $ crontab <filename>
    　　其中，<filename>是你在$ H O M E目錄中副本的文件名。
　　　　我建議你在自己的$ home目錄中保存一個該文件的副本。我就有過類似的經歷，有數次誤刪了crontab文件（因為r鍵緊挨在e鍵的右邊）。這就是為什么有些系統文檔建議不要直接編輯crontab文件，而是編輯該文件的一個副本，然后重新提交新的文件。
　　　　有些crontab的變體有些怪異，所以在使用crontab命令時要格外小心。如果遺漏了任何選項，crontab可能會打開一個空文件，或者看起來像是個空文件。這時敲delete鍵退出，不要按<Ctrl-D>，否則你將丟失crontab文件。

2、在/etc目錄下有一個crontab文件，查看這個文件內容如下所示：

[hadoop@slaver1 ~]$ cat /etc/crontab        #前四行是用來配置crond任務運行的環境變量，
SHELL=/bin/bash　　　　　　　　　　　　　　　　　#第一行SHELL變量指定了系統要使用哪個shell，這里是bash
PATH=/sbin:/bin:/usr/sbin:/usr/bin          #第二行PATH變量指定了系統執行命令的路徑
MAILTO=root                                 #第三行MAILTO變量指定了crond的任務執行信息將通過電子郵件發送給root用戶，如果MAILTO變量的值為空，則表示不發送任務執行信息給用戶
HOME=/                                      #第四行的HOME變量指定了在執行命令或者腳本時使用的主目錄

# For details see man 4 crontabs

# Example of job definition:
# .---------------- minute (0 - 59)
# |  .------------- hour (0 - 23)
# |  |  .---------- day of month (1 - 31)
# |  |  |  .------- month (1 - 12) OR jan,feb,mar,apr ...
# |  |  |  |  .---- day of week (0 - 6) (Sunday=0 or 7) OR sun,mon,tue,wed,thu,fri,sat
# |  |  |  |  |
# *  *  *  *  * user-name command to be executed

[hadoop@slaver1 ~]$

3、使用實例：

實例1：每1分鍾執行一次command
命令：
* * * * * command
 
實例2：每小時的第3和第15分鍾執行
命令：
3,15 * * * * command
 
實例3：在上午8點到11點的第3和第15分鍾執行
命令：
3,15 8-11 * * * command
 
實例4：每隔兩天的上午8點到11點的第3和第15分鍾執行
命令：
3,15 8-11 */2 * * command
 
實例5：每個星期一的上午8點到11點的第3和第15分鍾執行
命令：
3,15 8-11 * * 1 command
 
實例6：每晚的21:30重啟smb 
命令：
30 21 * * * /etc/init.d/smb restart
 
實例7：每月1、10、22日的4 : 45重啟smb 
命令：
45 4 1,10,22 * * /etc/init.d/smb restart
 
實例8：每周六、周日的1 : 10重啟smb
命令：
10 1 * * 6,0 /etc/init.d/smb restart
 
實例9：每天18 : 00至23 : 00之間每隔30分鍾重啟smb 
命令：
0,30 18-23 * * * /etc/init.d/smb restart
 
實例10：每星期六的晚上11 : 00 pm重啟smb 
命令：
0 23 * * 6 /etc/init.d/smb restart
 
實例11：每一小時重啟smb 
命令：
* */1 * * * /etc/init.d/smb restart
 
實例12：晚上11點到早上7點之間，每隔一小時重啟smb 
命令：
* 23-7/1 * * * /etc/init.d/smb restart
 
實例13：每月的4號與每周一到周三的11點重啟smb 
命令：
0 11 4 * mon-wed /etc/init.d/smb restart
 
實例14：一月一號的4點重啟smb 
命令：
0 4 1 jan * /etc/init.d/smb restart
實例15：每小時執行/etc/cron.hourly目錄內的腳本
命令：
01   *   *   *   *     root run-parts /etc/cron.hourly
說明：
run-parts這個參數了，如果去掉這個參數的話，后面就可以寫要運行的某個腳本名，而不是目錄名了
四、使用注意事項
1. 注意環境變量問題
有時我們創建了一個crontab，但是這個任務卻無法自動執行，而手動執行這個任務卻沒有問題，這種情況一般是由於在crontab文件中沒有配置環境變量引起的。
在crontab文件中定義多個調度任務時，需要特別注意的一個問題就是環境變量的設置，因為我們手動執行某個任務時，是在當前shell環境下進行的，程序當然能找到環境變量，而系統自動執行任務調度時，是不會加載任何環境變量的，因此，就需要在crontab文件中指定任務運行所需的所有環境變量，這樣，系統執行任務調度時就沒有問題了。
不要假定cron知道所需要的特殊環境，它其實並不知道。所以你要保證在shelll腳本中提供所有必要的路徑和環境變量，除了一些自動設置的全局變量。所以注意如下3點：
1）腳本中涉及文件路徑時寫全局路徑；
2）腳本執行要用到java或其他環境變量時，通過source命令引入環境變量，如：
cat start_cbp.sh
#!/bin/sh
source /etc/profile
export RUN_CONF=/home/d139/conf/platform/cbp/cbp_jboss.conf
/usr/local/jboss-4.0.5/bin/run.sh -c mev &
3）當手動執行腳本OK，但是crontab死活不執行時。這時必須大膽懷疑是環境變量惹的禍，並可以嘗試在crontab中直接引入環境變量解決問題。如：
0 * * * * . /etc/profile;/bin/sh /var/www/java/audit_no_count/bin/restart_audit.sh
2. 注意清理系統用戶的郵件日志
每條任務調度執行完畢，系統都會將任務輸出信息通過電子郵件的形式發送給當前系統用戶，這樣日積月累，日志信息會非常大，可能會影響系統的正常運行，因此，將每條任務進行重定向處理非常重要。
例如，可以在crontab文件中設置如下形式，忽略日志輸出：
0 */3 * * * /usr/local/apache2/apachectl restart >/dev/null 2>&1
“/dev/null 2>&1”表示先將標准輸出重定向到/dev/null，然后將標准錯誤重定向到標准輸出，由於標准輸出已經重定向到了/dev/null，因此標准錯誤也會重定向到/dev/null，這樣日志輸出問題就解決了。
3. 系統級任務調度與用戶級任務調度
系統級任務調度主要完成系統的一些維護操作，用戶級任務調度主要完成用戶自定義的一些任務，可以將用戶級任務調度放到系統級任務調度來完成（不建議這么做），但是反過來卻不行，root用戶的任務調度操作可以通過“crontab –uroot –e”來設置，也可以將調度任務直接寫入/etc/crontab文件，需要注意的是，如果要定義一個定時重啟系統的任務，就必須將任務放到/etc/crontab文件，即使在root用戶下創建一個定時重啟系統的任務也是無效的。
4. 其他注意事項
新創建的cron job，不會馬上執行，至少要過2分鍾才執行。如果重啟cron則馬上執行。
當crontab突然失效時，可以嘗試/etc/init.d/crond restart解決問題。或者查看日志看某個job有沒有執行/報錯tail -f /var/log/cron。
千萬別亂運行crontab -r。它從Crontab目錄（/var/spool/cron）中刪除用戶的Crontab文件。刪除了該用戶的所有crontab都沒了。
在crontab中%是有特殊含義的，表示換行的意思。如果要用的話必須進行轉義\%，如經常用的date ‘+%Y%m%d’在crontab里是不會執行的，應該換成date ‘+\%Y\%m\%d

4、crontab配置

 */1 * * * * sh /export/servers/shell/uploadFile2Hdfs.v2.sh
 */1 * * * * sh  source /etc/profile;sh /export/servers/shell/uploadFile2Hdfs.v1.sh
 
# 編輯命令是crontab -e
# 查看命令是crontab -l

5、uploadFile2Hdfs.v2.sh

#!/bin/bash

#set java env
export JAVA_HOME=/home/hadoop/app/jdk1.7.0_51
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

#set hadoop env
export HADOOP_HOME=/home/hadoop/app/hadoop-2.6.4
export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH


#版本1的問題：
#雖然上傳到Hadoop集群上了，但是原始文件還在。如何處理？
#日志文件的名稱都是xxxx.log1,再次上傳文件時，因為hdfs上已經存在了，會報錯。如何處理？

#如何解決版本1的問題
#       1、先將需要上傳的文件移動到待上傳目錄
#    2、在講文件移動到待上傳目錄時，將文件按照一定的格式重名名
#        /export/software/hadoop.log1   /export/data/click_log/xxxxx_click_log_{date}


#日志文件存放的目錄
log_src_dir=/home/hadoop/logs/log/

#待上傳文件存放的目錄
log_toupload_dir=/home/hadoop/logs/toupload/


#日志文件上傳到hdfs的根路徑
hdfs_root_dir=/data/clickLog/20151226/

#打印環境變量信息
echo "envs: hadoop_home: $HADOOP_HOME"


#讀取日志文件的目錄，判斷是否有需要上傳的文件
echo "log_src_dir:"$log_src_dir
ls $log_src_dir | while read fileName
do
    if [[ "$fileName" == access.log.* ]]; then
    # if [ "access.log" = "$fileName" ];then
        date=`date +%Y_%m_%d_%H_%M_%S`
        #將文件移動到待上傳目錄並重命名
        #打印信息
        echo "moving $log_src_dir$fileName to $log_toupload_dir"xxxxx_click_log_$fileName"$date"
        mv $log_src_dir$fileName $log_toupload_dir"xxxxx_click_log_$fileName"$date
        #將待上傳的文件path寫入一個列表文件willDoing
        echo $log_toupload_dir"xxxxx_click_log_$fileName"$date >> $log_toupload_dir"willDoing."$date
    fi
    
done
#找到列表文件willDoing
ls $log_toupload_dir | grep will |grep -v "_COPY_" | grep -v "_DONE_" | while read line
do
    #打印信息
    echo "toupload is in file:"$line
    #將待上傳文件列表willDoing改名為willDoing_COPY_
    mv $log_toupload_dir$line $log_toupload_dir$line"_COPY_"
    #讀列表文件willDoing_COPY_的內容（一個一個的待上傳文件名）  ,此處的line 就是列表中的一個待上傳文件的path
    cat $log_toupload_dir$line"_COPY_" |while read line
    do
        #打印信息
        echo "puting...$line to hdfs path.....$hdfs_root_dir"
        hadoop fs -put $line $hdfs_root_dir
    done    
    mv $log_toupload_dir$line"_COPY_"  $log_toupload_dir$line"_DONE_"
done

待續......

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 分布式文件系統HDFS 大數據 | 分布式文件系統 HDFS 帶您詳細解讀分布式文件系統HDFS 分布式文件系統HDFS-部署和配置 Hadoop分布式文件系統HDFS的工作原理 Hadoop 分布式文件系統 - HDFS Hadoop4-HDFS分布式文件系統原理 3分布式文件系統HDFS 分布式文件系統比較出名的有HDFS 和 GFS 認識HDFS分布式文件系統