flume學習（三）：flume將log4j日志數據寫入到hdfs（轉）

本文轉載自查看原文 2015-11-19 10:26 2248 Spark

原文鏈接：flume學習（三）：flume將log4j日志數據寫入到hdfs

在第一篇文章中我們是將log4j的日志輸出到了agent的日志文件當中。配置文件如下：

[plain] view plain copy

tier1.sources=source1
tier1.channels=channel1
tier1.sinks=sink1
tier1.sources.source1.type=avro
tier1.sources.source1.bind=0.0.0.0
tier1.sources.source1.port=44444
tier1.sources.source1.channels=channel1
tier1.channels.channel1.type=memory
tier1.channels.channel1.capacity=10000
tier1.channels.channel1.transactionCapacity=1000
tier1.channels.channel1.keep-alive=30
tier1.sinks.sink1.type=logger
tier1.sinks.sink1.channel=channel1

本次我們把log4j的日志直接采集輸出到hdfs中去。需要修改flume.conf中sink的配置：

[plain] view plain copy

tier1.sources=source1
tier1.channels=channel1
tier1.sinks=sink1
tier1.sources.source1.type=avro
tier1.sources.source1.bind=0.0.0.0
tier1.sources.source1.port=44444
tier1.sources.source1.channels=channel1
tier1.channels.channel1.type=memory
tier1.channels.channel1.capacity=10000
tier1.channels.channel1.transactionCapacity=1000
tier1.channels.channel1.keep-alive=30
tier1.sinks.sink1.type=hdfs
tier1.sinks.sink1.channel=channel1
tier1.sinks.sink1.hdfs.path=hdfs://master68:8020/flume/events
tier1.sinks.sink1.hdfs.fileType=DataStream
tier1.sinks.sink1.hdfs.writeFormat=Text
tier1.sinks.sink1.hdfs.rollInterval=0
tier1.sinks.sink1.hdfs.rollSize=10240
tier1.sinks.sink1.hdfs.rollCount=0
tier1.sinks.sink1.hdfs.idleTimeout=60

簡單說明一下修改的部分，我們將sink的type由logger變為hdfs，然后指定輸出path, 默認是輸出到HDFS后為sequencefile,里面的內容無法直接打開瀏覽，為了便於直觀看到我們輸出的日志信息，所以我這里將fileType為DataStream, writeFormat=Text,這樣就可以直接打開生成的文件進行查看了。

下面幾個roll開頭的參數都是用來控制滾動日志輸出的，官方文檔上的說明也很詳細，我這里配置的只按文件大小來滾動rollSize=10240,也就是10K滾動生成一個新的文件用來接收新的EVENTS。實際中這個Size應該更大一些，我覺得設置成HDFS的blocksize大小應該挺合適的。

idleTimeout設置為60秒（默認值為0），這里面的原理是這樣的，flume里面每生成一個接收文件時的命名規則如：FlumeData.1406251462179.tmp，.tmp表示這個文件正在被使用來接收EVENTS，當滿10K之后，這個文件會被rename成FlumeData.1406251462179，把.tmp后綴去掉，但是如果你停止了應用程序后，FlumeData.1406251462179.tmp還沒滿10K，按照默認的idleTimeout設置，不會將它rename,也就是.tmp后綴一直在，造成了這個文件一直在使用當中的一個假象，這是有問題的，我們設置idleTimeout=60，即60秒后這個文件還沒有被寫入數據，就會關閉它然后rename它去掉.tmp,以后新進來的events，會新開一個.tmp文件來接收。

我們再運行第一篇文章中的那個示例應用程序，然后去path指定的目錄下面就能看到log4j輸出的日志信息了。

補充注意點（針對cm安裝的flume）：

首先在hdfs上創建/flume目錄：hadoop fs -mkdir /flume
給該目錄授權給flume用戶和組：hadoop fs -chown -R flume:flume /flume

注意給目錄授權很重要，不然會報錯。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 flume采集log4j日志到kafka Flume整合log4j flume與log4j的整合 flume log4j配置 Flume學習 & Kafka & Storm 等 & Log4J 配置 log4j2 輸入日志到flume 使用Log4j將程序日志實時寫入Kafka（轉） Log4j（一）：Log4j將日志信息寫入數據庫用log4j將日志寫入文件和數據庫使用log4j讓日志寫入數據庫