关联规则基础概念


还是借用啤酒与尿布的故事

订单TID 购买的内容Items
T1 {牛奶,面包}
T2 {面包,尿布,啤酒,鸡蛋}
T3 {牛奶,尿布,啤酒,可乐}
T4 {面包,牛奶,尿布,啤酒}
T5 {面包,牛奶,尿布,可乐}

所谓关联规则就是有关联的规则,比如上图中买了啤酒的同时也买尿布,{啤酒}-->{尿布}(X->Y)就是一条关联规则。那么这条规则的强度如何呢?比如说如果买啤酒的人里面只有1%的人同时买了尿布,这样的话似乎这个规则就不算准确了。那么如果买啤酒的人100%都会买尿布,是不是就算很强的规则呢?也不尽然,比如在这10000次购买中,只有一个人买了啤酒,虽然买啤酒的人100%买了尿布,但是毕竟就一次购买,所以也算不得多么有效。这两项指标便是confidence和support。

 

confidence    指的是       这两项在同一条记录中同时出现的次数/集合中X(啤酒)出现的次数   上例中 3/4  = 75%

confidence(A==>B)=P(A|B)

可信度是准确性的衡量,够买啤酒的用户有多少购买了尿布。

 

 

support      指的是       这两项在同一条记录中同时出现的次数/记录的总个数                            上例中 3/5 = 60%

support(A==>B)=P(A n B)

支持度是重要性的衡量,在所有的事物中占多大的代表性。

 

 

除此之外还有一个Lift指标

Lift             指的是       含有x的条件下,同时含有y的概率/y总体发生的概率比                           上例中 75%/(4/5) = 93.75%

lift(A==>B)=confidence(A==>B)/support(B)=p(B|A)/p(B)

 

 

首先找出频繁集(frequent itemset)。所谓频繁集指满足最小支持度或置信度的集合。其次从频繁集中找出强规则(strong rules)。强规则指既满足最小支持度又满足最小置信度的规则。

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM