購物籃模型&Apriori算法

本文轉載自查看原文 2016-11-02 14:31 1847 購物籃模型/ 大數據學習/ Apriori

	若I是一個項集，I的支持度指包含I的購物籃數目，若I的支持度>=S，則稱I是頻繁項集。其中，S是支持度閾值。

	 I->j 如果I中所有項出現在某個購物籃的話，那么j“有可能”也出現在這一購物籃中。     
	 I->j的可行度：集合I與{j}補集的支持度與I的支持度的比值。

	在實際應用中，購物籃規模和頻繁項集太大，故任何算法的主要開銷時間都集中在將購物籃從磁盤讀入內存這個過程。

	若項集是字符串或其他，可以以從1到n的連續整數來表示，整數碼與項一一對應：用一個哈希表將項的表現形式換成整數。即每次在文件中看到一個項，就對它進行哈希。若該項存在，則可以獲得其整數碼；若不存在，就將下一個可用的數字賦給它，並將項極其整數碼放入哈希表中。

	假設i<j,且僅使用二維數組a中的元素a[i,j]來存放計數結果，這種策略會使數組的一半元素都沒有用，故使用一個一維的三角數組。此時，{i,j}對應元素a[k]，其中1<=i<=j<=n,k=(i-1)(n-i/2)+j-i.

	將計數值以三元組[i,j,c]的方式來存儲，即{i,j}對的計數值為c（其中i<j）.可以采用類似哈希表的數據結構，其中i和j是搜索鍵值，以此確定對於給定的i和j是否存在對應的三元組。

	如果在所有可能出現的項對中至少有1/3出現在購物籃的情況下，三角矩陣方式更優；而若出現的比例顯著小於1/3，就要考慮使用三元組方式。

如果項集I是頻繁的，那么其所有的子集都是頻繁的；
如果一個項集的超集不再是頻繁的，則稱該項集最大（這里的最大頻繁項集不是指所含項個數最多的頻繁項集，不要弄錯了，最大頻繁項集不是唯一的，可能有很多個）。
- 最大頻繁項集的所有子集都是頻繁的；
- 除最大頻繁項集的子集之外，其它集合都是不頻繁的。

	A-Priori相關算法：避免對所有的三元組或更大的集合計數，集中考慮計算頻繁二元組的算法。A-Priori算法通過對數據做兩遍掃描來減少必須計數的項對數目。

	只給頻繁項重新編號，編號范圍是1到m.此時的表格是一個下標為1到n的數組，如果第i項不頻繁，則對應的第i個數組元素為0，否則為1到m之間一個唯一的整數。該表格稱為頻繁項集表格。

	在第二遍掃描之后，對兩個頻繁項組成的所有項對計數。

第二遍掃描具體細節如下：
1、對每個購物籃，在頻繁項集表中檢查哪些項是頻繁的；
2、通過一個雙重循環生成所有的頻繁項對；
3、對某個頻繁項對，在存儲計數值的數據結構中相應的計數值上加1；
最后，在第二遍掃描結束時，檢查計數值結構以確定哪些項對是頻繁項對。

從某個集合大小k到下一個大小k+1的轉移模式：
對於每個集合大小k，存在兩個頻繁項集的集合：

![image](/Users/wust_zxl/Desktop/屏幕快照 2016-10-31 下午9.44.11.png)

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python編程代寫中的Apriori關聯算法-市場購物籃分析數據挖掘算法之-關聯規則挖掘(Association Rule)（購物籃分析）如何做好關聯分析（購物籃分析） R語言與關聯規則挖掘—購物籃分析 R語言和數據分析十大：購物籃分析 6大常用數據分析模型詳解，做分析不再沒思路1、RFM模型2、帕累托分析3、購物籃分析4、波士頓矩陣5、轉化分析6、杜邦分析法商業化數據分析師（三十二）：平台商品畫像實戰項目（三）購物籃分析 Apriori算法 Apriori算法及python實現 Apriori算法實例