分布式實時日志分析解決方案ELK部署架構

本文轉載自查看原文 2017-12-03 13:01 2522 elk/ 軟件系列

一、概述

ELK 已經成為目前最流行的集中式日志解決方案，它主要是由Beats、Logstash、Elasticsearch、Kibana等組件組成，來共同完成實時日志的收集，存儲，展示等一站式的解決方案。本文將會介紹ELK常見的架構以及相關問題解決。

1. Filebeat：Filebeat是一款輕量級，占用服務資源非常少的數據收集引擎，它是ELK家族的新成員，可以代替Logstash作為在應用服務器端的日志收集引擎，支持將收集到的數據輸出到Kafka，Redis等隊列。

2. Logstash：數據收集引擎，相較於Filebeat比較重量級，但它集成了大量的插件，支持豐富的數據源收集，對收集的數據可以過濾，分析，格式化日志格式。

3. Elasticsearch：分布式數據搜索引擎，基於Apache Lucene實現，可集群，提供數據的集中式存儲，分析，以及強大的數據搜索和聚合功能。

4. Kibana：數據的可視化平台，通過該web平台可以實時的查看 Elasticsearch 中的相關數據，並提供了豐富的圖表統計功能。

二、ELK常見部署架構

2.1 Logstash作為日志收集器

這種架構是比較原始的部署架構，在各應用服務器端分別部署一個Logstash組件，作為日志收集器，然后將Logstash收集到的數據過濾、分析、格式化處理后發送至Elasticsearch存儲，最后使用Kibana進行可視化展示，這種架構不足的是：Logstash比較耗服務器資源，所以會增加應用服務器端的負載壓力。

2.2 Filebeat作為日志收集器

該架構與第一種架構唯一不同的是：應用端日志收集器換成了Filebeat，Filebeat輕量，占用服務器資源少，所以使用Filebeat作為應用服務器端的日志收集器，一般Filebeat會配合Logstash一起使用，這種部署方式也是目前最常用的架構。

2.3 引入緩存隊列的部署架構

該架構在第二種架構的基礎上引入了Kafka消息隊列（還可以是其他消息隊列），將Filebeat收集到的數據發送至Kafka，然后在通過Logstasth讀取Kafka中的數據，這種架構主要是解決大數據量下的日志收集方案，使用緩存隊列主要是解決數據安全與均衡Logstash與Elasticsearch負載壓力。

2.4 以上三種架構的總結

第一種部署架構由於資源占用問題，現已很少使用，目前使用最多的是第二種部署架構，至於第三種部署架構個人覺得沒有必要引入消息隊列，除非有其他需求，因為在數據量較大的情況下，Filebeat 使用壓力敏感協議向 Logstash 或 Elasticsearch 發送數據。如果 Logstash 正在繁忙地處理數據，它會告知 Filebeat 減慢讀取速度。擁塞解決后，Filebeat 將恢復初始速度並繼續發送數據。

三、問題及解決方案

問題：如何實現日志的多行合並功能？

系統應用中的日志一般都是以特定格式進行打印的，屬於同一條日志的數據可能分多行進行打印，那么在使用ELK收集日志的時候就需要將屬於同一條日志的多行數據進行合並。

解決方案：使用Filebeat或Logstash中的multiline多行合並插件來實現

在使用multiline多行合並插件的時候需要注意，不同的ELK部署架構可能multiline的使用方式也不同，如果是本文的第一種部署架構，那么multiline需要在Logstash中配置使用，如果是第二種部署架構，那么multiline需要在Filebeat中配置使用，無需再在Logstash中配置multiline。

1、multiline在Filebeat中的配置方式：

filebeat.prospectors:
    -
       paths:
          - /home/project/elk/logs/test.log
       input_type: log
       multiline:
            pattern: '^\['
            negate: true
            match: after
output:
   logstash:
      hosts: ["localhost:5044"]

pattern：正則表達式

negate：默認為false，表示匹配pattern的行合並到上一行；true表示不匹配pattern的行合並到上一行

match：after表示合並到上一行的末尾，before表示合並到上一行的行首

如：

pattern: '\['
negate: true
match: after

該配置表示將不匹配pattern模式的行合並到上一行的末尾

2、multiline在Logstash中的配置方式

input {
beats {
    port => 5044
}
}

filter {
multiline {
    pattern => "%{LOGLEVEL}\s*\]"
    negate => true
    what => "previous"
}
}

output {
elasticsearch {
    hosts => "localhost:9200"
}
}

（1）Logstash中配置的what屬性值為previous，相當於Filebeat中的after，Logstash中配置的what屬性值為next，相當於Filebeat中的before。
（2）pattern => "%{LOGLEVEL}\s*\]" 中的LOGLEVEL是Logstash預制的正則匹配模式，預制的還有好多常用的正則匹配模式，詳細請看：https://github.com/logstash-plugins/logstash-patterns-core/tree/master/patterns

問題：如何將Kibana中顯示日志的時間字段替換為日志信息中的時間？

默認情況下，我們在Kibana中查看的時間字段與日志信息中的時間不一致，因為默認的時間字段值是日志收集時的當前時間，所以需要將該字段的時間替換為日志信息中的時間。

解決方案：使用grok分詞插件與date時間格式化插件來實現

在Logstash的配置文件的過濾器中配置grok分詞插件與date時間格式化插件，如：

input {
beats {
    port => 5044
}
}

filter {
multiline {
    pattern => "%{LOGLEVEL}\s*\]\[%{YEAR}%{MONTHNUM}%{MONTHDAY}\s+%{TIME}\]"
    negate => true
    what => "previous"
}

grok {
    match => [ "message" , "(?<customer_time>%{YEAR}%{MONTHNUM}%{MONTHDAY}\s+%{TIME})" ]
}

date {
        match => ["customer_time", "yyyyMMdd HH:mm:ss,SSS"] //格式化時間
        target => "@timestamp" //替換默認的時間字段
}
}

output {
elasticsearch {
    hosts => "localhost:9200"
}
}

如要匹配的日志格式為：“[DEBUG][20170811 10:07:31,359][DefaultBeanDefinitionDocumentReader:106] Loading bean definitions”，解析出該日志的時間字段的方式有：

① 通過引入寫好的表達式文件，如表達式文件為customer_patterns，內容為：
CUSTOMER_TIME %{YEAR}%{MONTHNUM}%{MONTHDAY}\s+%{TIME}

注：內容格式為：[自定義表達式名稱] [正則表達式]

然后logstash中就可以這樣引用：

filter {
grok {
patterns_dir => ["./customer-patterms/mypatterns"] //引用表達式文件路徑
match => [ "message" , "%{CUSTOMER_TIME:customer_time}" ] //使用自定義的grok表達式
}
}

② 以配置項的方式，規則為：(?<自定義表達式名稱>正則匹配規則)，如：

filter {
grok {
match => [ "message" , "(?<customer_time>%{YEAR}%{MONTHNUM}%{MONTHDAY}\s+%{TIME})" ]
}
}

問題：如何在Kibana中通過選擇不同的系統日志模塊來查看數據

一般在Kibana中顯示的日志數據混合了來自不同系統模塊的數據，那么如何來選擇或者過濾只查看指定的系統模塊的日志數據？

解決方案：新增標識不同系統模塊的字段或根據不同系統模塊建ES索引

1、新增標識不同系統模塊的字段，然后在Kibana中可以根據該字段來過濾查詢不同模塊的數據，這里以第二種部署架構講解，在Filebeat中的配置內容為：

filebeat.prospectors:
    -
       paths:
          - /home/project/elk/logs/account.log
       input_type: log
       multiline:
            pattern: '^\['
            negate: true
            match: after
       fields: //新增log_from字段
         log_from: account

    -
       paths:
          - /home/project/elk/logs/customer.log
       input_type: log
       multiline:
            pattern: '^\['
            negate: true
            match: after
       fields:
         log_from: customer
output:
   logstash:
      hosts: ["localhost:5044"]

通過新增：log_from字段來標識不同的系統模塊日志

2、根據不同的系統模塊配置對應的ES索引，然后在Kibana中創建對應的索引模式匹配，即可在頁面通過索引模式下拉框選擇不同的系統模塊數據。

這里以第二種部署架構講解，分為兩步：

① 在Filebeat中的配置內容為：

filebeat.prospectors:
    -
       paths:
          - /home/project/elk/logs/account.log
       input_type: log
       multiline:
            pattern: '^\['
            negate: true
            match: after
       document_type: account

    -
       paths:
          - /home/project/elk/logs/customer.log
       input_type: log
       multiline:
            pattern: '^\['
            negate: true
            match: after
       document_type: customer
output:
   logstash:
      hosts: ["localhost:5044"]

通過document_type來標識不同系統模塊

② 修改Logstash中output的配置內容為：

output {
elasticsearch {
hosts => "localhost:9200"
index => "%{type}"
}
}

在output中增加index屬性，%{type}表示按不同的document_type值建ES索引

四、總結

本文主要介紹了ELK實時日志分析的三種部署架構，以及不同架構所能解決的問題，這三種架構中第二種部署方式是時下最流行也是最常用的部署方式，最后介紹了ELK作在日志分析中的一些問題與解決方案，說在最后，ELK不僅僅可以用來作為分布式日志數據集中式查詢和管理，還可以用來作為項目應用以及服務器資源監控等場景，更多內容請看官網。

出處：https://my.oschina.net/feinik/blog/1580625

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 分布式實時日志處理平台ELK ELK + kafka 分布式日志解決方案 ELK實時日志分析平台環境部署--完整記錄（Dubbo架構）基於MDC+Filter的跨應用分布式日志追蹤解決方案 ELK系列--實時日志分析系統ELK 部署與運行中的問題匯總分布式實時日志系統（一）環境搭建之 Jstorm 集群搭建過程/Jstorm集群一鍵安裝部署 Airflow v2.0 分布式部署 elasticsearch日志解決方案微服務架構的分布式事務解決方案 JAVA分布式架構的演變及解決方案微服務架構的分布式事務解決方案