flume學習(三):flume將log4j日志數據寫入到hdfs(轉)


原文鏈接:flume學習(三):flume將log4j日志數據寫入到hdfs

在第一篇文章中我們是將log4j的日志輸出到了agent的日志文件當中。配置文件如下:

 

[plain]  view plain copy 在CODE上查看代碼片 派生到我的代碼片
 
  1. tier1.sources=source1  
  2. tier1.channels=channel1  
  3. tier1.sinks=sink1  
  4.   
  5. tier1.sources.source1.type=avro  
  6. tier1.sources.source1.bind=0.0.0.0  
  7. tier1.sources.source1.port=44444  
  8. tier1.sources.source1.channels=channel1  
  9.   
  10. tier1.channels.channel1.type=memory  
  11. tier1.channels.channel1.capacity=10000  
  12. tier1.channels.channel1.transactionCapacity=1000  
  13. tier1.channels.channel1.keep-alive=30  
  14.   
  15. tier1.sinks.sink1.type=logger  
  16. tier1.sinks.sink1.channel=channel1  


本次我們把log4j的日志直接采集輸出到hdfs中去。需要修改flume.conf中sink的配置:

[plain]  view plain copy 在CODE上查看代碼片 派生到我的代碼片
 
  1. tier1.sources=source1  
  2. tier1.channels=channel1  
  3. tier1.sinks=sink1  
  4.   
  5. tier1.sources.source1.type=avro  
  6. tier1.sources.source1.bind=0.0.0.0  
  7. tier1.sources.source1.port=44444  
  8. tier1.sources.source1.channels=channel1  
  9.   
  10. tier1.channels.channel1.type=memory  
  11. tier1.channels.channel1.capacity=10000  
  12. tier1.channels.channel1.transactionCapacity=1000  
  13. tier1.channels.channel1.keep-alive=30  
  14.   
  15. tier1.sinks.sink1.type=hdfs  
  16. tier1.sinks.sink1.channel=channel1  
  17. tier1.sinks.sink1.hdfs.path=hdfs://master68:8020/flume/events  
  18. tier1.sinks.sink1.hdfs.fileType=DataStream  
  19. tier1.sinks.sink1.hdfs.writeFormat=Text  
  20. tier1.sinks.sink1.hdfs.rollInterval=0  
  21. tier1.sinks.sink1.hdfs.rollSize=10240  
  22. tier1.sinks.sink1.hdfs.rollCount=0  
  23. tier1.sinks.sink1.hdfs.idleTimeout=60  

簡單說明一下修改的部分,我們將sink的type由logger變為hdfs,然后指定輸出path, 默認是輸出到HDFS后為sequencefile,里面的內容無法直接打開瀏覽,為了便於直觀看到我們輸出的日志信息,所以我這里將fileType為DataStream, writeFormat=Text,這樣就可以直接打開生成的文件進行查看了。

 

下面幾個roll開頭的參數都是用來控制滾動日志輸出的,官方文檔上的說明也很詳細,我這里配置的只按文件大小來滾動rollSize=10240,也就是10K滾動生成一個新的文件用來接收新的EVENTS。實際中這個Size應該更大一些,我覺得設置成HDFS的blocksize大小應該挺合適的。

idleTimeout設置為60秒(默認值為0),這里面的原理是這樣的,flume里面每生成一個接收文件時的命名規則如:FlumeData.1406251462179.tmp,.tmp表示這個文件正在被使用來接收EVENTS,當滿10K之后,這個文件會被rename成FlumeData.1406251462179,把.tmp后綴去掉,但是如果你停止了應用程序后,FlumeData.1406251462179.tmp還沒滿10K,按照默認的idleTimeout設置,不會將它rename,也就是.tmp后綴一直在,造成了這個文件一直在使用當中的一個假象,這是有問題的,我們設置idleTimeout=60,即60秒后這個文件還沒有被寫入數據,就會關閉它然后rename它去掉.tmp,以后新進來的events,會新開一個.tmp文件來接收。

我們再運行第一篇文章中的那個示例應用程序,然后去path指定的目錄下面就能看到log4j輸出的日志信息了。

 

補充注意點(針對cm安裝的flume):

首先在hdfs上創建/flume目錄:hadoop fs -mkdir /flume
給該目錄授權給flume用戶和組:hadoop fs -chown -R flume:flume /flume

注意給目錄授權很重要,不然會報錯。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM