前文我們聊解了什么是elk,elk中的elasticsearch集群相關組件和集群搭建以及es集群常用接口的說明和使用,回顧請查看考https://www.cnblogs.com/qiuhom-1874/p/13758006.html;今天我們來了解下ELK中的日志收集器logstash;
logstash的工作原理類似Linux里的rsyslog,首先logstash會有一個數據輸入源,也就是logstash去哪里采集數據,它的采集數據來源很多,比如從文件中采集,從某個tcp/udp端口采集,從redis的消息隊列中采集,kafka啊、標准輸入等等;它和rsyslog不同的是,rsyslog是把日志數據從一個地方轉到另一個地方,中間不會去處理日志的格式,采集回來是什么樣就是什么樣;而logstash不一樣,logstash它可以把采集回來的日志做格式化,以不同的編碼形式向外輸出;比如把nginx的日志采集回來,它可以以json格式輸出;同時它還可以處理采集回來的日志,比如忽略某些字段的輸出,把原有日志格式做切分;把原來不是json格式的日志,通過輸出規則轉換為json格式的日志;總體流程圖如下
提示:以上流程圖主要表示logstash采集數據和處理數據內部的一個流程;從上面的流程不難想象,logstash就是把一個數據采集回來,通過內部定義的處理規則,然后通過output規則輸出到指定地方的一個插件;
安裝logstash
logstash的運行方式有兩種,第一種以agent的方式運行在數據源所在服務器上采集數據,然后輸出到指定地方;第二種是以server方式獨立運行在一個服務器上,接受filebeat從數據源發送過來的數據,然后在輸出到其他地方;logstash的運行以來jdk,所以首先要在運行jdk的服務器上安裝jdk;logstash的版本最好同ELK中的其他組件版本一樣;
安裝jdk
yum install -y java-1.8.0-openjdk-devel
導出JAVA_HOME環境變量
下載logstash-6.8.12.rpm包
[root@node03 ~]# wget https://artifacts.elastic.co/downloads/logstash/logstash-6.8.12.rpm --2020-10-02 15:01:14-- https://artifacts.elastic.co/downloads/logstash/logstash-6.8.12.rpm Resolving artifacts.elastic.co (artifacts.elastic.co)... 151.101.230.222, 2a04:4e42:36::734 Connecting to artifacts.elastic.co (artifacts.elastic.co)|151.101.230.222|:443... connected. HTTP request sent, awaiting response... 200 OK Length: 177059640 (169M) [application/octet-stream] Saving to: ‘logstash-6.8.12.rpm’ 100%[==========================================================================>] 177,059,640 136MB/s in 1.2s 2020-10-02 15:01:15 (136 MB/s) - ‘logstash-6.8.12.rpm’ saved [177059640/177059640] [root@node03 ~]#
安裝logstash-6.8.12.rpm
[root@node03 ~]# ll total 172912 -rw-r--r-- 1 root root 177059640 Aug 18 19:41 logstash-6.8.12.rpm [root@node03 ~]# yum install ./logstash-6.8.12.rpm Loaded plugins: fastestmirror Examining ./logstash-6.8.12.rpm: 1:logstash-6.8.12-1.noarch Marking ./logstash-6.8.12.rpm to be installed Resolving Dependencies --> Running transaction check ---> Package logstash.noarch 1:6.8.12-1 will be installed --> Finished Dependency Resolution Dependencies Resolved =================================================================================================================================== Package Arch Version Repository Size =================================================================================================================================== Installing: logstash noarch 1:6.8.12-1 /logstash-6.8.12 294 M Transaction Summary =================================================================================================================================== Install 1 Package Total size: 294 M Installed size: 294 M Is this ok [y/d/N]: y Downloading packages: Running transaction check Running transaction test Transaction test succeeded Running transaction Installing : 1:logstash-6.8.12-1.noarch 1/1 Using provided startup.options file: /etc/logstash/startup.options /usr/share/logstash/vendor/bundle/jruby/2.5.0/gems/pleaserun-0.0.31/lib/pleaserun/platform/base.rb:112: warning: constant ::Fixnum is deprecated Successfully created system startup script for Logstash Verifying : 1:logstash-6.8.12-1.noarch 1/1 Installed: logstash.noarch 1:6.8.12-1 Complete! [root@node03 ~]#
提示:logstash安裝生成的文件超級多,其中主配置文件是/etc/logstash/lostash.yml,配置日志收集規則、過濾規則、輸出規則的文件通常放在/etc/logstash/conf.d/目錄下以.conf結尾的文件;其實主配置文件基本不用動,我們直接在/etc/logstash/conf.d/目錄下編輯日志收集規則配置文件,然后啟動logstash即可;
示例:編寫配置文件,定義logstash從標准輸入收集數據,輸出到標准輸出;
[root@node03 ~]# cat /etc/logstash/conf.d/stdin-stdout.conf input { stdin {} } output { stdout {} } [root@node03 ~]#
提示:logstash數據收集配置文件格式是input {} output{},其中input 用來定義數據源輸入的配置,其中里面stdin {}表示使用標准輸入插件采集數據;同樣output用於定義數據輸出的,stdout表示把input里定義的數據采集采集到的數據輸出到output里定義的輸出位置;以上配置就表示把標准輸入采集到數據,輸出到標准輸出;
檢查配置文件語法是否正確
提示:-f用於指定配置文件,-t表示檢查指定配置文件的語法是否正確;configuration ok表示指定配置文件語法正確;
驗證:啟動logstash,在標准輸入中輸入數據,看看是否會把我們輸入的數據輸出到標准輸出呢?
提示:可以看到當我們指定logstash以/etc/logstash/conf.d/stdin-stdout.conf配置文件啟動,在標准輸入中輸入了hello world,它輸出了一個json格式的信息,其中message字段就是我們輸入的內容;它這個默認輸出就是用的rubydebug的格式向外輸出;當然我們可以在輸出里用codec來指定輸出以那種格式輸出;
示例:指定輸出格式用json格式輸出
驗證:啟動logstash,看看輸出是否是json格式呢?
提示:可以看到當我們在配置文件中指定輸出編碼是json格式以后,啟動logstash看到logstash輸出格式就是以json格式輸出了;
示例:配置logstash從文件中采集數據,輸出到標准輸出,輸出格式為rubydebug
提示:以上配置表示從/var/log/test.log中采集數據,開始采集位置上文件最開始處,類型為test.log,輸出以rubydebug格式輸出到標准輸出;
驗證:以/etc/logstash/conf.d/file-stdout.conf啟動logstash,看看完test.log中追加內容,它是否會輸出到標准輸出呢?
提示:現在啟動logstash,可以看到標准輸出上沒有輸出內容,原因是我們指定的文件現在沒有數據,所以它沒有什么數據采集;
向/var/log/test.log中追加數據,看看在標准輸出中是否會有對應的內容以我們在配置文件中指定的格式輸出呢?
提示:可以看到我們在另外一個終端向/var/log/test.log中追加數據,在標准輸出中可看到logstash把對應文件中的數據采集到,並輸出到標准輸出;
示例:收集httpd的日志到es集群中;
啟動logstash,然后訪問httpd,看看對應的es集群中是否有日志生成?
提示:啟動logstash以后,可以看到對應打印的日志,已經將我們的配置讀取並應用了;
訪問httpd,然后到es上查看對應的日志信息是否有?
提示:可以看到在es集群中有對應的index生成,並且里面內容也是我們訪問httpd的日志;從上面收集的日志來看,它是把日志內容當作message字段一個字段輸出,通常這不是我們想要的結果,這樣收集的日志,對我們來說沒有太大的意義;我們需要讓logstash幫我們處理,把日志內容切分成多個字段,然后再輸出;
示例:配置logstash切分日志,然后保存到es集群
提示:logstash處理日志依賴filter插件,其中grok是filter的核心插件,它內置了很多正則表達式,對常用的的日志做精准匹配;以上filter插件主要做了兩件事,第一把message字段通過內部的HTTPD_COMBINDLOG做了字段切分;第二件事,把原有的message字段刪除,避免同一數據多次收集;
驗證:檢查配置文件語法,然后啟動logstash
啟動logstash
清空原有訪問日志,然后訪問httpd
在es上查看收集的日志
提示:可以看到在es上收集到的日志,就把message字段拆分成不同的字段的json格式了;