Flume的安裝及簡單的使用（一）

本文轉載自查看原文 2017-09-18 22:55 5906

1.Flume簡介

Flume是Cloudera提供的一個高可用、高可靠、分布式的海量日志采集、聚合和傳輸的系統。Flume支持在日志系統中定制各類數據發送方用於收集數據，同時Flume提供對數據的簡單處理，並將數據處理結果寫入各種數據接收方的能力。
Flume作為Cloudera開發的實時日志收集系統，受到了業界的認可與廣泛應用。2010年11月Cloudera開源了Flume的第一個可用版本0.9.2，這個系列版本被統稱為Flume-OG。隨着Flume功能的擴展，Flume-OG代碼工程臃腫、核心組件設計不合理、核心配置不標准等缺點暴露出來，尤其是在Flume-OG的最后一個發行版本 0.94.0中，日志傳輸不穩定的現象尤為嚴重。為了解決這些問題，2011年10月Cloudera重構了核心組件、核心配置和代碼架構，重構后的版本統稱為Flume-NG。改動的另一原因是將 Flume 納入 Apache 旗下，Cloudera Flume改名為Apache Flume。

2.Flume工作原理

Flume的數據流由事件（Event）貫穿始終。事件是Flume的基本數據單位，它攜帶日志數據（字節數組形式）並且攜帶有頭信息，這些Event由Agent外部的Source生成，當Source捕獲事件后會進行特定的格式化，然后Source會把事件推入（單個或多個）Channel中。可以把Channel看作是一個緩沖區，它將保存事件直到Sink處理完該事件。Sink負責持久化日志或者把事件推向另一個Source。以下是Flume的一些核心概念：
（1）Events：一個數據單元，帶有一個可選的消息頭,可以是日志記錄、avro 對象等。
（2）Agent：JVM中一個獨立的Flume進程，包含組件Source、Channel、Sink。
（3）Client：運行於一個獨立線程，用於生產數據並將其發送給Agent。
（4）Source：用來消費傳遞到該組件的Event,從Client收集數據，傳遞給Channel。
（5）Channel：中轉Event的一個臨時存儲，保存Source組件傳遞過來的Event，其實就是連接 Source 和 Sink ，有點像一個消息隊列。
（6）Sink：從Channel收集數據，運行在一個獨立線程。
Flume以Agent為最小的獨立運行單位，一個Agent就是一個JVM。單Agent由Source、Sink和Channel三大組件構成，如下圖所示：
這里寫圖片描述
值得注意的是，Flume提供了大量內置的Source、Channel和Sink類型。不同類型的Source、Channel和Sink可以自由組合。組合方式基於用戶設置的配置文件，非常靈活。比如：Channel可以把事件暫存在內存里，也可以持久化到本地硬盤上；Sink可以把日志寫入HDFS、HBase、ES甚至是另外一個Source等等。Flume支持用戶建立多級流，也就是說多個Agent可以協同工作,如下圖所示:
這里寫圖片描述
更多的了解，請查看官網：http://flume.apache.org/FlumeUserGuide.html

3.系統環境

主機名稱	操作系統	Java版本	Fiume版本
hadoop	centos7	Java1.8+	1.7.0

**系統需求：**Flume需要Java 1.6及以上（推薦1.8），對Agent監控目錄的讀寫權限。

4.下載及安裝

1.Flume

到Flume官網上http://flume.apache.org/download.html下載軟件安裝包，如圖：
這里寫圖片描述
可以在Windows下下載完成，通過xftp上傳至hadoop根目錄下，也可以在圖片上箭頭指向的版本，點擊“右鍵”，復制鏈接地址，在hadoop下通過wget安裝

下載、解壓

$ wget http://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz
$ tar -xzf apache-flume-1.7.0-bin.tar.gz
$ mv apache-flume-1.7.0-bin flume

2.jdk1.8的安裝

1.到jdk官網http://www.oracle.com/technetwork/java/javase/downloads/index.html 下載軟件安裝包，如圖：
這里寫圖片描述
在Windows下下載完成，通過xftp上傳至hadoop根目錄下
首先先卸載虛擬機自帶的openjdk，通過如下命令

$ sudo yum -y remove java*

2.安裝jdk

$ sudo yum -y install jdk-8u144-linux-x64.rpm

3.配置java環境變量（局部）

$ vi .bashrc

添加如下內容

# Java Environment Variables
export JAVA_HOME=/usr/java/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin

通過如下命令使其生效

$ source .bashrc

測試：$ echo $JAVA_HOME 會顯示如下：

/usr/java/jdk1.8.0_144

至此Java環境變量配置成功

5.修改Flume配置文件

進入到flume的conf下，創建一個flume.conf 文件

$ cd /home/hadoop/flume/conf/
$ vi flume.conf

輸入以下內容

# 指定Agent的組件名稱
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# 指定Flume source(要監聽的路徑)
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /home/hadoop/log

# 指定Flume sink
a1.sinks.k1.type = logger

# 指定Flume channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# 綁定source和sink到channel上
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

6.啟動flume agent

$ cd flume
$ bin/flume-ng agent --conf conf --conf-file conf/flume.conf --name a1 -Dflume.root.logger=INFO,console

參數	作用	舉例
–conf 或 -c	指定配置文件夾，包含flume-env.sh和log4j的配置文件	–conf conf
–conf-file 或 -f	配置文件地址	–conf-file conf/flume.conf
–name 或 -n	agent名稱	–name a1
-z	zookeeper連接字符串	-z zkhost:2181,zkhost1:2181
-p	zookeeper中的存儲路徑前綴	-p /flume

7.簡單的操作

寫入日志內容
在/home/hadoop/log 下創建一個flume.log 日志文件，寫入hello flume 作為測試內容

$ cd /home/hadoop/log
$ vi flume.log

接着就可以在前一個終端看到剛剛采集的內容了,如下：

2017-09-18 22:18:28,937 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:95)] Event: { headers:{} body: 68 65 6C 6C 6F 20 66 6C 75 6D 65 20 21 21       hello flume !! }

如圖：
這里寫圖片描述
至此flume已經能夠正常運行。

————————-華麗的分割線——————————–

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Flume使用（案例分析）安裝Flume遇到的問題及解決 windows安裝zookeeper和kafka，flume Graphviz安裝及簡單使用 influxdb 安裝及簡單使用 burpsuit的安裝和簡單使用 Beef安裝與簡單使用 Kafka安裝和簡單使用 HomeBrew的安裝和簡單使用 CobaltStrike的安裝與簡單使用