關聯規則基礎概念


還是借用啤酒與尿布的故事

訂單TID 購買的內容Items
T1 {牛奶,面包}
T2 {面包,尿布,啤酒,雞蛋}
T3 {牛奶,尿布,啤酒,可樂}
T4 {面包,牛奶,尿布,啤酒}
T5 {面包,牛奶,尿布,可樂}

所謂關聯規則就是有關聯的規則,比如上圖中買了啤酒的同時也買尿布,{啤酒}-->{尿布}(X->Y)就是一條關聯規則。那么這條規則的強度如何呢?比如說如果買啤酒的人里面只有1%的人同時買了尿布,這樣的話似乎這個規則就不算准確了。那么如果買啤酒的人100%都會買尿布,是不是就算很強的規則呢?也不盡然,比如在這10000次購買中,只有一個人買了啤酒,雖然買啤酒的人100%買了尿布,但是畢竟就一次購買,所以也算不得多么有效。這兩項指標便是confidence和support。

 

confidence    指的是       這兩項在同一條記錄中同時出現的次數/集合中X(啤酒)出現的次數   上例中 3/4  = 75%

confidence(A==>B)=P(A|B)

可信度是准確性的衡量,夠買啤酒的用戶有多少購買了尿布。

 

 

support      指的是       這兩項在同一條記錄中同時出現的次數/記錄的總個數                            上例中 3/5 = 60%

support(A==>B)=P(A n B)

支持度是重要性的衡量,在所有的事物中占多大的代表性。

 

 

除此之外還有一個Lift指標

Lift             指的是       含有x的條件下,同時含有y的概率/y總體發生的概率比                           上例中 75%/(4/5) = 93.75%

lift(A==>B)=confidence(A==>B)/support(B)=p(B|A)/p(B)

 

 

首先找出頻繁集(frequent itemset)。所謂頻繁集指滿足最小支持度或置信度的集合。其次從頻繁集中找出強規則(strong rules)。強規則指既滿足最小支持度又滿足最小置信度的規則。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM