關聯規則之序列模式挖掘--GSP算法

本文轉載自查看原文 2018-04-27 23:54 6512 機器學習

關聯規則--Apriori算法部分討論的關聯模式概念都強調同時出現關系，而忽略數據中的序列信息（時間/空間）：

時間序列：顧客購買產品X，很可能在一段時間內購買產品Y；

空間序列：在某個點發現了現象A，很可能在下一個點發現現象Y。

例：6個月以前購買奔騰PC的客戶很可能在一個月內訂購新的CPU芯片。

注：1）序列模型=關聯規則+時間/空間維度

2）這里討論的序列模式挖掘指的是時間維度上的挖掘。

一、基本定義

序列：將與對象A有關的所有事件按時間戳增序排列，就得到對象A的一個序列s。

元素（事務）：序列是事務的有序列表，可記作，其中每個是一個或多個事件（項）的集族，即。

序列的長度：序列中元素的個數。

序列的大小：序列中事件的個數，K-序列是包含k個事件的序列。

如：如下課程序列中包含4個元素，8個事件。

子序列：序列t是另一個序列s的子序列，若t中每個有序元素都是s中一個有序元素的子集。即，序列是序列的子序列，若存在整數，使得。

例：

序列數據庫：包含一個或多個序列數據的數據集，如下：

二、序列模式挖掘

序列的支持度：序列s的支持度指包含s的所有數據序列（與單個數據對象（上例中的A/B/C）相關聯的事件的有序列表）所占的比例，若序列s的支持度大於或等於minsup，則稱s是一個序列模式（頻繁序列）。

序列模式挖掘：給定序列數據集D和用戶指定的最小支持度minsup，找出支持度大於或等於minsup的所有序列。

例：下例中，假設minsup=50%，因為序列（子序列）<{2} {2，3}>包含在A,B,C中，所以其支持度=3/5=0.6，其他類似。

產生序列模式

1、蠻力法

枚舉所有可能的序列，並統計它們各自的支持度。值得注意的是：候選序列的個數比候選項集的個數大得多，兩個原因如下：

2、類Apriori算法

候選過程：一對頻繁（k-1）序列合並，產生候選k-序列。為不重復產生，合並原則如下：

序列S1與序列S2合並，僅當從S1中去掉第一個事件得到的子序列與從S2中去掉最后一個事件得到的子序列相同，合並結果為S1與S2最后一個事件的連接，連接方式有兩種：

1）若S2的最后兩個事件屬於相同的元素，則S2的最后一個事件在合並后的序列中是S1的最后一個元素的一部分；

2）若S2的最后兩個事件屬於不同的元素，則S2的最后一個事件在合並后的序列中成為連接到S1的尾部的單獨元素。

例：

<(1) (2) (3)> + <(2) (3) (4)> = <(1) (2) (3) (4)> ：除去S1中第一個事件(1)與除去S2中最后一個事件(4)所剩下的子序列均為<(2) (3)>，且S2最后兩個事件(3)(4)屬於不同的元素，故單獨列出；

<(2 5) (3)> + <(5) (3 4)> = <(2 5) (3 4)>：除去事件2和事件4，剩下子序列相同，由於S2最后兩個事件(3 4)屬於相同的元素，所以合並到S1最后，而不是寫成<(2 5) (3) (3 4)>。

候選剪枝：若候選k-序列的（k-1）-序列至少有一個是非頻繁的，則被剪枝。

上例中，候選剪枝后只剩下<{1} {2,5} {3}>。

3、時限約束

施加時限約束時，序列模式的每個元素都與一個時間窗口[l,u]相關聯，其中l是該時間窗口內事件的最早發生時間，u是該時間窗口內事件的最晚發生時間。

最大跨度約束：整個序列中所允許的事件的最晚和最早發生時間的最大時間差，記為maxspan，一般地，maxspan越長，在數據序列中檢測到模式的可能性越大，但較長的maxspan也可能捕獲不真實的模式。

注：最大跨度影響序列模式發現算法的支持度計數，施加最大時間跨度約束之后，有些數據序列就不再支持候選模式。

最小間隔和最大間隔約束：假設最大間隔maxgap=3（天），最小間隔mingap=1，即元素中的事件必須在前一個元素的事件出現后三（一）天內出現。

注：使用最大間隔約束可能違反先驗原理，以圖2.1為例，無約束情形下，<{2} {5}>和<{2}{3}{5}>的支持度都是60%，若施加約束mingap=0，maxgap=1，<{2} {5}>的支持度下降至40%（缺少D的支持），而<{2}{3}{5}>的支持度仍是60%，即超集的支持度比原集要高——與先驗原理違背。使用鄰接子序列的概念可避免這一問題。

例：

使用鄰接子序列修改先驗原理如下：

修訂的先驗原理：若一個k-序列是頻繁的，則它的所有鄰接（k-1）-子序列也一定是頻繁的。

注：根據上述原理，在候選剪枝階段，並非所有k-1-序列都序列都需要檢查（違反最大間隔約束）。

例：若maxgap=1，則不必檢查<{1}{2,3}{4}{5}>的子序列<{1}{2,3}{5}>是否頻繁，因為{2,3}和{5}之間的時間差為2，大於一個單位，只需考察其鄰接子序列：<{1}{2,3}{4}>，<{2,3}{4}{5}>，<1}{2}{4}{5}>，<{1}{3}{4}{5}>。