關聯規則的常用算法

本文轉載自查看原文 2017-10-08 21:07 4524 Machine Learning

關聯規則（association rules）是一種廣泛使用的模式識別方法，比如在購物籃分析（Market basket Analysis），網絡連接分析（Web link），基因分析。我們常常提到的購物籃分析，它的典型的應用場景就是要找出被一起購買的商品集合。

關聯規則的可能的應用場景有：

優化貨架商品擺放，或優化郵寄商品目錄的內容
交叉銷售和捆綁銷售
異常識別等

關於交易數據的表述形式

先說最簡單的三種形式，水平表述、垂直表述和矩陣表述，直接看圖：

接着是稍稍變換之后的兩種表述形式：

排序表述（lexicographically sorted）
前綴樹表述（prefix tree）

這三種數據表述形式（水平、垂直、前綴樹）分別對應算法：apriori、Eclat 和 FP growth，本篇主要描述 apriori 和 FP growth 兩種算法。

Apriori 算法

Apriori算法是一種最有影響的挖掘 0-1 布爾關聯規則頻繁項集的算法。這種算法利用了頻繁項集性質的先驗知識（因此叫做priori）。Apriori使用了自底向上的實現方式（如果集合 I 不是頻繁項集，那么包含 I 的更大的集合也不可能是頻繁項集），k – 1 項集用於探索 k 項集。首先，找出頻繁 1 項集的集合(L1)，L1用於找頻繁 2 項集的集合 L2，而 L2 用於找 L3，如此下去，直到不能找到滿足條件的頻繁 k 項集，則迭代停止。搜索每個 Lk 需要一次全表數據庫掃描。

我們假設一個很小的交易庫：{1,2,3,4}, {1,2}, {2,3,4}, {2,3}, {1,2,4}, {3,4}, {2,4}

首先我們先要計算發生頻數（或者叫做support）

item	support
{1}	3
{2}	6
{3}	4
{4}	5

1項集的最低頻數是3，我們姑且認為他們都是頻繁的。因此我們找到1項集所有可能組合的pairs：

item	support
{1,2}	3
{1,3}	1
{1,4}	2
{2,3}	3
{2,4}	4
{3,4}	3

在這里，{1,3}, {1,4} 不滿足support大於3的設定（一般support是3/(3 + 6 + 4 + 5)），因此還剩下的頻繁項集是：

item	support
{1,2}	3
{2,3}	3
{2,4}	4
{3,4}	3

也就是說，包含{1,3}, {1,4}的項集也不可能是頻繁的，這兩條規則被prune掉了；只有{2,3,4} 是可能頻繁的，但它的頻數只有2，也不滿足support條件，因此迭代停止。

但我們可以想象，這種算法雖然比遍歷的方法要好很多，但其空間復雜度還是非常高的，尤其是 L1 比較大時，L2 的數量會暴增。而且每次Apriori都要全表掃描數據庫，開銷也非常大。

即便如此 apriori 算法在很多場景下也足夠用。在R語言中使用 arules 包來實現此算法（封裝的是C實現，只要裝載的 sparse matrix 可以載入內存，support 設置合理，速度非常快）。

FP growth

前文提到了用apriori需要全表掃描，對於超大型數據會出現一些問題。如果有一種方法，可以不每次全表掃描，而是用一個簡潔的數據結構（壓縮之后的數據庫）把整個數據庫的信息都包含進去，通過對數據結構的遞歸就完成整個頻繁模式的挖掘，並保證最低的搜索消耗。這種方法的其中一種實現便是 FP growth算法。這個算法因為數據結構的 size 遠遠小於原始的數據庫，所有的數據操作可以完全在內存中計算，挖掘速度就可以大大提高。

FP growth 算法包含兩部分：存儲的FP tree 和對應的FP 算法：

FP-tree 的結構

想想開頭提到的交易數據的前綴樹表述，那是一種壓縮數據的方法。J. Han 對 FP-tree 的定義如下：

根節點被標記為 root，item 按照一定的順序連接為子樹。以及一個frequent-item-header 表（其實就是item按照出現頻率排序的表格，下圖中左側的表格）
每個子樹上包含如下信息：
- item 的名稱（比如下圖中I2, I3, I5等）
- 計數（support count）：到達這個節點的路徑深度
- 節點的連接情況（node-link，和哪個節點有關系）

FP-tee 的算法

我們拿一個例子來說明問題。假如我們數據庫中記錄的交易信息如下（最低support為3）：

No.	transactions	Sort
1	ABDE	BEAD
2	BCE	BEC
3	ABDE	BEAD
4	ABCE	BEAC
5	ABCDE	BEACD
6	BCD	BCD

首先我們先要了解所有的一項集出現的頻率（support，重新排序的結果見上圖的Sort部分）：B(6), E(5), A(4), C(4), D(4)。

對於排序后的每條記錄的迭代后 FP-tree 結構變化過程為（也就是一條一條計數的增加）：

也就是說，原始數據被壓縮到和最后那張圖一樣的結構上。

接着是比較關鍵的 FP-tree 的挖掘，過程見下圖：

對於D這個節點來說，

（1）首先它的頻繁項集是 D(4)，它包含在三條鏈路里：

(B(6),E(5),A(4)),(B(6),E(5),A(4),C(2)),(B(6),C(1))

第一條鏈路里D有兩次出現，而其他兩個鏈路在D的條件下各出現了一次。因此我們說D有3個前綴路徑

(BEA:2),(BEAC:1),(BC:1)

(2) 根據這個信息我們重構D條件下的 FP-tee，則如下圖中 Project:D(4) 的結構。當然還沒有完，還要繼續搜索可能的規則，因為我們的 support 為3，因此 Project:D(4) 中，最末端的兩個 C(1) 則應該減枝掉。

(3) 而A、E、B的頻數依然可以被使用，即 DA(3)、DE(3)、DB(4)。

(4)

對於 DA(3) 的前綴路徑是 Project:DA(3) 的樹形結構，因此這條線的最終結果是 DAE(3),DAEB(3),DAB(3)。
對於 DE(3) 的前綴路徑是 Project:DE(3) 的樹形結構，最終結果是 DEB(3)
對於 DB(4) 只有一個根，沒有結果

(5) 對於C這個節點來說，同樣可以找到它的前綴路徑 (BEA:2),(BE:1),(B:1)，因此得到 Project:C(4) 的結構，A被減枝掉，則最后剩余了 CE(3),CEB(3),CB(4)。

再向上，找A節點；找E節點；找B節點；這樣一步一步搜索所有可能的結果。最終滿足support大於3條件的頻繁項集即為 DAE,DAEB,DAB,DEB,CE,CEB,CB,AE,AEB,AB,EB

【總結】：從下往上找分析每一個節點，

　　　　　1.先找D的所有前綴路徑。

　　　　　2.將前綴路徑中，出現次數小於support的節點剪枝。

　　　　 3.找到所有以D為前綴的所有二項集。

　　　　 4. 以每個二節點為前綴，找到所有對應的三項集 ... ,直到將所有的路徑遍歷完畢為止。

　　　　 5.繼續對D的上一個節點進行以上的1-4步驟。

當然，上面只是簡單的把 FP-tree 的原理說明了一下，里面的一些trick並沒有提及，感興趣的讀者可以找一找相關paper。

FP-tree 算法在R中的實現

在R中沒有現成的包來做這個事情，但有意思的是arules包的作者也寫了 FP-tree 算法，只是沒有封裝而已。當然只要有算法的C代碼，嵌入到R環境中也是不難的。

先到作者的主頁下載相關的源代碼，我選擇是的fpgrowth.zip的C代碼編譯通過。

cd /home/liusizhe/download/fpgrowth/fpgrowth/src/
make
make install
./fpgrowth -m2 -n5 -s0.075 /home/liusizhe/experiment/census.dat frequent

參數的話，可以直接參考 fpgrowth 的幫助，比如上面m對應的是最小項集，n對應的最大項集，s是support值，后面接了 inputfile 和 outputfile 兩個文件。

當然，如果有必要的話，上面的算法都可以寫到並行架構，比如 map-reduce。甚至如果只是求解二項集，在不同的語言環境下甚至幾行代碼就可以搞定。

參考目錄和延伸閱讀：

http://en.wikipedia.org/wiki/Association_rule_learning
http://en.wikipedia.org/wiki/Apriori_algorithm
http://www.borgelt.net//courses.html#fpm

轉：

http://www.17bigdata.com/%E5%85%B3%E8%81%94%E8%A7%84%E5%88%99%E7%9A%84%E5%B8%B8%E7%94%A8%E7%AE%97%E6%B3%95.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 關聯規則算法（轉）關聯規則之FpGrowth算法關聯規則（Apriori算法）關聯規則-Apriori算法關聯規則之Aprior算法關聯規則挖掘算法之Apriori算法關聯規則算法---Eclat算法機器學習算法——關聯規則關聯規則算法Apriori的Python實現關聯規則挖掘理論和算法