時間序列異常檢測


時間序列異常檢測基礎研究
隨着時間序列數據越來越頻繁的被使用,異常數據在時間序列中的價值被發
掘和利用,越來越多的人們將目光投入到時間序列異常檢測領域,並且提出了很多
時間序列異常檢測技術,這些技術的提出大大促進了時間序列異常檢測領域的發
展,對於后面學者進行時間序列數據挖掘有着重要的參考價值。
上一章介紹了時間序列數據的來源,時間序列數據挖掘的起源還有發展過程,
並且描述了時間序列異常檢測領域的一些知識,本章介紹一些常用的時間序列異
常檢測技術,並且介紹各個算法的優缺點,以及各自適用的數據和場景,通過比較
可以得到一些結論,對於本文提出的時間序列異常檢測方案有着重要的幫助。


時間序列異常檢測數據
數據挖掘是從大量的數據中挖掘出有價值的、深層次的的知識的過程,大部分
的數據挖掘工作的研究重點都是為了發現那些數據中頻繁出現的模式或者由此總
結出某種規律,比如周期、關聯關系等等,但是在某些場景中,非頻繁出現的模式
或者說異常的模式往往具有更大的價值,能帶來更有啟發的知識。比如網絡入侵檢
測、電子交易欺詐檢測、可疑活動的監控等等。這樣的數據挖掘工作開啟了一個新
的研究領域,就是異常檢測,異常檢測作為數據挖掘的一個分支,正在受到越來越
多的關注和研究,在數據挖掘領域的異常檢測通常可以分為五類:基於聚類的方法
[19]、基於距離的方法[20]、基於密度的方法[21-23]、基於分布的方法[24]等,基於分布
的方法是由統計學領域發展起來的,假設數據集是服從一定的分布的,這樣對於數
據集的每個對象作回歸分析,然后判斷其是否是異常。基於聚類和分類的算法可以
針對高維的數據,可以利用現有的成果,但是因為其沒有對異常檢測作一些改進,
所以效果並不是那么好,而且往往效率也不高。
對於時間序列而言,其有着一個重要的屬性就是時間屬性,其序列的每個數據
點之間存在嚴格的時間順序,並且間隔是固定的,所以對於這種數據進行的異常檢
測往往有着特定的技巧。針對其的異常定義也與普通數據挖掘領域中的異常不盡
相同。大部分人認為時間序列中的異常有着點異常、序列異常、模式異常。同時對
於時間序列的異常檢測也面臨了一些挑戰,包括對於異常的定義的模糊,使得要檢
測的內容並不清楚,而且時間序列中距離的定義是一種很重要的部分,但是不同的
距離的定義對於時間序列的異常檢測產生的影響很大,而且很多常見的距離度量
算法比如歐幾里得距離在時間序列的各個子序列之間進行距離度量時是不適用的,


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM