我們都知道flume是用來采集日志數據的,這就帶來了問題,如果數據量過大,數據格式不同,結構復雜,flume還能正常采集數據嗎?
下面我們來說flume的常見的問題數據采集不全,臟數據多,采集過程中不斷的產生新的數據 等等
這個就需要我們來發現問題,解決問題了常見的如下顯示
source::: 是flume 采集數據的入口,監控日志的系統目錄。常用的
spooling Directory source
Exec Source
Avro Source
channel:::是flume采集數據的通道
capacity:
transactionCapacity:
byteCapacity
sink:::把channel的數據輸出到特定的終端(常見的hdfs ,hbase ,database,avro)
特點:優化各個終端數據參入的性能
:::flume:::常見的參數對應其function
#存儲的格式
a1.channels=c1
al.sources=r1
a1.sinks=k1
a1.channels.c1.type=?(?=menory or other)
a1.sources.c1.channels=c1
a1.sources.r1.type=avro/thrift
a1.sources.r1.bind=0.0.0.0
a1.sources.r1.port=8888
################sink
a1.sinks.k1.channel=c1
a1.sinks.k1.type=logger
client.type=default(for avro) or thrift(for thrift)
#default client accepts only 1 host
hosts =h1
host.h1=host1.example.org:8888 #host and port must both be specified
batch-size=100 #must be >=1(default:100)
connect-timeout=20000 #must be >=1000(default :20000)ms
request-timeout=20000#must be >=1000(default:20000)ms
