还是借用啤酒与尿布的故事
订单TID | 购买的内容Items |
T1 | {牛奶,面包} |
T2 | {面包,尿布,啤酒,鸡蛋} |
T3 | {牛奶,尿布,啤酒,可乐} |
T4 | {面包,牛奶,尿布,啤酒} |
T5 | {面包,牛奶,尿布,可乐} |
所谓关联规则就是有关联的规则,比如上图中买了啤酒的同时也买尿布,{啤酒}-->{尿布}(X->Y)就是一条关联规则。那么这条规则的强度如何呢?比如说如果买啤酒的人里面只有1%的人同时买了尿布,这样的话似乎这个规则就不算准确了。那么如果买啤酒的人100%都会买尿布,是不是就算很强的规则呢?也不尽然,比如在这10000次购买中,只有一个人买了啤酒,虽然买啤酒的人100%买了尿布,但是毕竟就一次购买,所以也算不得多么有效。这两项指标便是confidence和support。
confidence 指的是 这两项在同一条记录中同时出现的次数/集合中X(啤酒)出现的次数 上例中 3/4 = 75%
confidence(A==>B)=P(A|B)
可信度是准确性的衡量,够买啤酒的用户有多少购买了尿布。
support 指的是 这两项在同一条记录中同时出现的次数/记录的总个数 上例中 3/5 = 60%
support(A==>B)=P(A n B)
支持度是重要性的衡量,在所有的事物中占多大的代表性。
除此之外还有一个Lift指标
Lift 指的是 含有x的条件下,同时含有y的概率/y总体发生的概率比 上例中 75%/(4/5) = 93.75%
lift(A==>B)=confidence(A==>B)/support(B)=p(B|A)/p(B)
首先找出频繁集(frequent itemset)。所谓频繁集指满足最小支持度或置信度的集合。其次从频繁集中找出强规则(strong rules)。强规则指既满足最小支持度又满足最小置信度的规则。