關聯分析算法-基本概念、關聯分析步驟


一、關聯分析的基本概念

關聯分析(Association Analysis):在大規模數據集中尋找有趣的關系。

頻繁項集(Frequent Item Sets):經常出現在一塊的物品的集合。

關聯規則(Association Rules):暗示兩個物品之間可能存在很強的關系。

 

支持度(Support):數據集中包含該項集的記錄所占的比例,是針對項集來說的。

例子:豆奶,橙汁,尿布和啤酒是超市中的商品。

下表呈現每筆交易以及顧客所買的商品:

由此可見,總記錄數為5,下面求每項集的支持度(以下並沒有列出全部的支持度)。

{豆奶} :支持度為3/5.

{橙汁}:支持度為3/5.

{尿布}:支持度為3/5.

{啤酒}:支持度為4/5.

{啤酒,尿布}:支持度為3/5.

{橙汁,豆奶,啤酒}:支持度為2/5.

 

置信度(Confidence):出現某些物品時,另外一些物品必定出現的概率,針對規則而言。

   規則1:{尿布}-->{啤酒},表示在出現尿布的時候,同時出現啤酒的概率。

   該條規則的置信度被定義為:支持度{尿布,啤酒}/支持度{尿布}=(3/5)/(3/5)=3/3=1

 

   規則2:{啤酒}-->{尿布},表示在出現啤酒的時候,同時出現尿布的概率。

   該條規則的置信度被定義為:支持度{尿布,啤酒}/支持度{啤酒}=(3/5)/(4/5)=3/4

 

 

二、關聯分析步驟

1. 發現頻繁項集,即計算所有可能組合數的支持度,找出不少於人為設定的最小支持度的集合。

2. 發現關聯規則,即計算不小於人為設定的最小支持度的集合的置信度,找到不小於認為設定的最小置信度規則。

 

例子:豆奶,橙汁,尿布和啤酒是超市中的商品,並為其編號,豆奶0,橙汁1,尿布2,啤酒3.

 

可能集合數:

可能組合的個數:C4,1+C4,2+C4,3+C4,4=4+6+4+1=15種

快速計算公式:2^n-1=2^4-1=15種

 

步驟一:發現頻繁項集

此時,人為設定最小支持度為2/5. 以下塗黃色為大於2/5的集合。

 由此找到頻繁項集。

步驟二:發現關聯規則

 

 

 此時,人為設定最小置信度為3/4. 塗黃色的為大於等於3/4,塗橙色的為小於3/4.

 發現關聯規則:

 

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM