摘自：http://www.36dsj.com/archives/75208

最近參與了了一個日志和告警的數據挖掘項目，里面用到的一些思路在這里和大家做一個分享。

項目的需求是收集的客戶系統一個月300G左右的的日志和告警數據做一個整理，主要是歸類(Grouping)和關聯(Correlation)，從而得到告警和日志的一些統計關系，這些統計結果可以給一線支持人員參考。

得到的數據主要分為兩部分，一部分是告警的歷史數據，這部分數據很少，只有50M左右，剩下的全部都是日志數據。日志數據大概有50多種不同類型，對應系統中不同的模塊。每種類型的文件每天產生一個日志文件，所以總數大概是1500個左右的日志文件。文件大概都是這樣的：A_2016-04-15.log, B_2016-04-15.log, …, A_2016-05-14.log, B_2016-05-14.log。每個文件在10M-1G之間不等。

1. 日志的模式挖掘

通過查看日志，發現所有的log每一行基本都是類似這樣的Pattern:

YYYY-MM-DD hh:mm:ss [模塊名] [具體日志]

每類日志的模塊名都是一樣的，基本可以忽略。有價值的就是時間戳和具體日志。

而且可以發現，很多日志只是極少部分動態內容不同，在代碼中屬於同一個位置的輸出，這些數據后面我們會分為一類數據。比如：

2016-04-26 00:30:38.795 55637 ResourceManager Free ram (MB): 244736

2016-04-26 00:34:38.795 55637 ResourceManager Free ram (MB): 244748

有某些類型日志每個時段都有出現，咨詢后得知基本沒有任何分析價值，這些日志后面我們會加入黑名單，不加分析。

2. 日志的歸類

由於每類日志都有30個文件，每個文件基本都有100萬行，我們的第一步工作就是去除上面提到的無用日志。去掉無用日志后，我們要分析的日志大概減少了30%。

接着我們要做的就是每一行的日志進行歸類（Grouping）。這里有很多的方法可以選擇，比如K-means，但是我們這么多的日志，很難去定義一個合適的K。經過一番嘗試后我們放棄了K-means。但是K-means的思想還是可以用的。最后我們使用的是啟發式的方法來歸類。

首先定下的基本思路是：對於每一類文件，我們分別做歸類，最后再一起和告警文件做關聯（Crrelation）。我們作了不同類別文件的日志肯定不在一類的假定。

對於每一類文件的每一行日志，我們我們通過對具體日志的字符串的相似度進行歸類，算法如下：

1）初始化將最終類別數組設置為空，類別數組的每一行的格式是 [index] [類別里第一次出現的具體日志內容] [該類日志出現的所有時間形成的數組]

2）初始化字符串相似度閾值，相似度超過閾值的字符串即為一類。項目里面我們相似度閾值取80%。

3）初始化歸類的時間間隔，在一個時間間隔內的相似日志僅僅記錄一次時間。也就是說如果某類日志已經有這段時間的記錄，再次在這段時間出現的類似日志將會被忽略。取的過大，后面關聯時精確度降低，取的過小，后面關聯時計算量會很大。項目里我們取10分鍾作為日志間隔。也就是一天划分成了24*6個時間間隔。

4）對於某一種類別，對於每一行的具體日志我們去和該類別的最終類別數組的每一行的具體日志做相似度比較：

a) 如果和最終類別里的某行具體日志的字符串的相似度超過了閾值，則這兩個字符串即歸為一類，僅僅把這個要分析的具體日志的時間點存入該類別，停止該行日志的分析。

b) 如果和最終類別里的任何一行具體日志的字符串的相似度都低於閾值。則我們發現了一個新的類別。在最終類別里加入一行記錄。並把該日志的時間間隔對應的點作為該類別的時間數組的第一條時間記錄。

5）對於所有其他的類別，分別執行上面的第4步。得到所有類別的最終類別數組。最終我們的50多個類別數組一共只剩下100多M，每個數組平均有100多種類別。

這個算法產生的類別數組中每一行是這樣的內容：

1 ResourceManager Free ram (MB): 244736 [[2016-04-26 00:30],[2016-04-26 10:40], …]

上面的算法中，我們用到了字符串相似度算法。這里我們用到是python的字符串下相似度算法庫：python-Levenshtein。計算相似度我們用了python-Levenshtein庫的ratio函數，即萊文斯坦比。如果大家對python-Levenshtein的字符串相似度計算有興趣，可以參考python-Levenshtein的官方文檔：https://pypi.python.org/pypi/python-Levenshtein/0.12.0#id1

3. 日志和告警的關聯

現在我們有了50多種日志的類別數據，每個類別也有在時間分布上的數據，同時，回到告警，每個告警也有在時間分布上的數據。現在我們可以在時間維度上做關聯算法。

我們的日志類別數組和告警在時間維度一共有30*24*6=4320個點。我們的目標是找到和每個告警在時間維度上關聯度比較高的一組日志。這里我們采用的是基於余弦相似度的算法（？？？）。我們選擇了所有的和告警在時間維度上相似度超過80%的日志類別。這些類別作為最終的統計結果作為我們輸出的一部分。

4. 告警和告警的關聯

這部分工作主要是研究告警和告警之間的統計關系。主要是基於統計的在時間維度上的父子關系。

由於告警數據較少，我們將時間間隔精確到1分鍾。對於每一種告警，我們檢查在該告警和其他告警在時間維度上的關系。我們檢查3種情況。

第一種情況是在相同時間間隔出現的兄弟告警和該告警的統計關系，我們選擇在時間維度上和該告警相似度超過80%的所有告警，這些告警和該告警有時間上同步的關系，也就是這些告警統計上總是和該告警同時出現。

第二種情況是在該告警出現前一分鍾內的所有父親告警和該告警的關系，我們選擇在時間維度上和該告警相似度超過80%的所有告警，這些告警和該告警有時間上先后的關系，也就是這些告警統計上總是在該告警之前出現。

第三種情況是在該告警出現后一分鍾內的所有兒子告警和該告警的關系，我們選擇在時間維度上和該告警相似度超過80%的所有告警，這些告警和該告警有時間上先后的關系，也就是這些告警統計上總是在該告警之后出現。

以上就是對日志和告警數據挖掘的項目經驗總結，希望對大家有所啟發。

作者：劉建平Pinard（十年碼農，對數學統計學，數據挖掘，機器學習，大數據平台，大數據平台應用開發，大數據可視化感興趣。博客：劉建平Pinard）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 什么是關聯分析？如何利用關聯規則做好數據挖掘數據挖掘復習筆記（三、關聯規則分析）數據挖掘之關聯分析七（非頻繁模式） resteasy經驗談數據挖掘中分類和聚類的區別數據挖掘中聚類算法【經驗談】XmlSerializer的坑數據挖掘——回歸分析數據挖掘算法之-關聯規則挖掘(Association Rule) 淺談數據挖掘中的關聯規則挖掘