如何有效地收集和管理大量服務器的日志一直是企業很頭疼的一個問題,部分企業應用shell腳本來管理,部分企業基於hadoop來開發自己的日志管理系統,第一種管理成本巨大,需要大量的人力來維護腳本的正常運行,第二種研發成本高昂,那么如何才能降低這兩方面的成本呢。
下面我們來介紹fluentd這種分布式日志管理系統,希望大家在了解之后,能得出自己的答案。
首先我們需要一台裝有mongodb的服務器用於存儲相關的日志,並在需要收集日志的服務器上安裝fluentd,安裝過程極其簡單,例如在redhat上運行如下命令即可。
curl -L http://toolbelt.treasuredata.com/sh/install-redhat.sh | sh
啟動相關的服務/etc/init.d/td-agent start
改寫相關的配置文件以適應生產網絡的情況,這里以我開發的waf系統的日志為例。
<match nginx.waf> type mongo host 127.0.0.1 port 27017 database fluentd collection waf capped capped_size 1024m user fluentd password fluentd flush_interval 10s </match> <source> type tail path /var/log/waf/waf.log pos_file /var/log/td-agent/waf.log.pos tag nginx.waf format /^\[(?<module>[^\]]*)\] (?<remote>[^ ]*) \[(?<time>[^\]]*)\] "(?<method>\S+)(?: +(?<path>[^\"]*) +\S*)?" "(?<agent>[^\"]*)"$/ time_format %Y-%m-%d %H:%M:%S </source>
format中需要撰寫形如(?<>PATTERN)的正則表達式,其中<>中的名字將作為mongodb中存儲的字段名,這里將我系統中的例子作為演示。
{ "_id" : ObjectId("534f80cde13823146d000002"), "module" : "BLOCK_URL_MODULE", "remote" : "10.0.2.2", "method" : "GET", "path" : "/echo?dnwair8!_*", "agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.116 Safari/537.36", "time" : ISODate("2014-04-17T07:20:44Z") } { "_id" : ObjectId("534f80d8e13823146d000003"), "module" : "BLOCK_URL_MODULE", "remote" : "10.0.2.2", "method" : "GET", "path" : "/echo?dn;kdowkoko*", "agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.116 Safari/537.36", "time" : ISODate("2014-04-17T07:20:49Z") } { "_id" : ObjectId("534f80d8e13823146d000004"), "module" : "BLOCK_URL_MODULE", "remote" : "10.0.2.2", "method" : "GET", "path" : "/echo?dn;kd@(*", "agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.116 Safari/537.36", "time" : ISODate("2014-04-17T07:20:52Z") }
其實還可以將日志直接輸出到fluentd中去。
fluentd為Ruby, Java, Python, PHP, Perl, Node.js, Scala提供了相關的庫,這里我們以python為例說明。
在fluentd的配置中加入如下配置:
<source> type forward port 24224 </source> <match fluentd.test.**> type stdout </match>
安裝相關的fluentd相關的python庫:
pip install fluent-logger
編寫測試代碼:
from fluent import sender from fluent import event sender.setup('fluentd.test', host='localhost', port=24224) event.Event('follow', { 'from': 'userA', 'to': 'userB' })
運行測試代碼:
python test.py
你將會在/var/log/td-agent/td-agent.log中查看到相關日志:
2014-04-17 03:33:56 -0400 fluentd.test.follow: {"to":"userB","from":"userA"}