還是借用啤酒與尿布的故事
訂單TID | 購買的內容Items |
T1 | {牛奶,面包} |
T2 | {面包,尿布,啤酒,雞蛋} |
T3 | {牛奶,尿布,啤酒,可樂} |
T4 | {面包,牛奶,尿布,啤酒} |
T5 | {面包,牛奶,尿布,可樂} |
所謂關聯規則就是有關聯的規則,比如上圖中買了啤酒的同時也買尿布,{啤酒}-->{尿布}(X->Y)就是一條關聯規則。那么這條規則的強度如何呢?比如說如果買啤酒的人里面只有1%的人同時買了尿布,這樣的話似乎這個規則就不算准確了。那么如果買啤酒的人100%都會買尿布,是不是就算很強的規則呢?也不盡然,比如在這10000次購買中,只有一個人買了啤酒,雖然買啤酒的人100%買了尿布,但是畢竟就一次購買,所以也算不得多么有效。這兩項指標便是confidence和support。
confidence 指的是 這兩項在同一條記錄中同時出現的次數/集合中X(啤酒)出現的次數 上例中 3/4 = 75%
confidence(A==>B)=P(A|B)
可信度是准確性的衡量,夠買啤酒的用戶有多少購買了尿布。
support 指的是 這兩項在同一條記錄中同時出現的次數/記錄的總個數 上例中 3/5 = 60%
support(A==>B)=P(A n B)
支持度是重要性的衡量,在所有的事物中占多大的代表性。
除此之外還有一個Lift指標
Lift 指的是 含有x的條件下,同時含有y的概率/y總體發生的概率比 上例中 75%/(4/5) = 93.75%
lift(A==>B)=confidence(A==>B)/support(B)=p(B|A)/p(B)
首先找出頻繁集(frequent itemset)。所謂頻繁集指滿足最小支持度或置信度的集合。其次從頻繁集中找出強規則(strong rules)。強規則指既滿足最小支持度又滿足最小置信度的規則。