flume在運行中常見的問題及處理措施


我們都知道flume是用來采集日志數據的,這就帶來了問題,如果數據量過大,數據格式不同,結構復雜,flume還能正常采集數據嗎?

下面我們來說flume的常見的問題數據采集不全,臟數據多,采集過程中不斷的產生新的數據 等等

這個就需要我們來發現問題,解決問題了常見的如下顯示

source::: 是flume 采集數據的入口,監控日志的系統目錄。常用的

spooling Directory source

Exec Source

Avro Source 

 

channel:::是flume采集數據的通道

capacity:

transactionCapacity:

byteCapacity

 

 

sink:::把channel的數據輸出到特定的終端(常見的hdfs ,hbase ,database,avro)

特點:優化各個終端數據參入的性能

:::flume:::常見的參數對應其function

#存儲的格式

a1.channels=c1

al.sources=r1

a1.sinks=k1

 

a1.channels.c1.type=?(?=menory or other)

 

a1.sources.c1.channels=c1

a1.sources.r1.type=avro/thrift

a1.sources.r1.bind=0.0.0.0

a1.sources.r1.port=8888

################sink

a1.sinks.k1.channel=c1

a1.sinks.k1.type=logger

client.type=default(for avro) or thrift(for thrift)

#default client accepts only 1 host

hosts =h1

host.h1=host1.example.org:8888 #host and port must both be specified

batch-size=100 #must be >=1(default:100)

connect-timeout=20000 #must be >=1000(default :20000)ms

request-timeout=20000#must be >=1000(default:20000)ms

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM