1.支持度(Support)
支持度表示項集{X,Y}在總項集里出現的概率。公式為:
Support(X→Y) = P(X,Y) / P(I) = P(X∪Y) / P(I) = num(XUY) / num(I)
其中,I表示總事務集。num()表示求事務集里特定項集出現的次數。
比如,num(I)表示總事務集的個數
num(X∪Y)表示含有{X,Y}的事務集的個數(個數也叫次數)。
2.置信度 (Confidence)
置信度表示在先決條件X發生的情況下,由關聯規則”X→Y“推出Y的概率。即在含有X的項集中,含有Y的可能性,公式為:
Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(XUY) / P(X)
3.提升度(Lift)
提升度表示含有X的條件下,同時含有Y的概率,與Y總體發生的概率之比。
Lift(X→Y) = P(Y|X) / P(Y)
例1,已知有1000名顧客買年貨,分為甲乙兩組,每組各500人,其中甲組有500人買了茶葉,同時又有450人買了咖啡;乙組有450人買了咖啡,如表(1)所示:
表(1)年貨購買表
試求解 1)”茶葉→咖啡“的支持度 # 既買了茶葉又買了咖啡的人/購物人數總數 = 450 / 1000= 0.45
2) "茶葉→咖啡"的置信度 # 既買了茶葉又買了咖啡的人/購買了茶葉人數總數 = 450/500 = 0.9
3)”茶葉→咖啡“的提升度 # 在購買了茶葉情況下同時購買了咖啡的概率(其實就是上面的置信度)/購買了咖啡的概率[(450+450)/(500+500) = 0.9 / 0.9 = 1
分析:
設X= {買茶葉},Y={買咖啡},則規則”茶葉→咖啡“表示”即買了茶葉,又買了咖啡“,於是,”茶葉→咖啡“的支持度為
Support(X→Y) = 450 / (500+500) = 45% # 此處跟原創文章不一樣,原創應該是筆誤,答案應該是 0.45
"茶葉→咖啡"的置信度為
Confidence(X→Y) = 450 / 500 = 90%
”茶葉→咖啡“的提升度為
Lift(X→Y) = Confidence(X→Y) / P(Y) = 90% / ((450+450) / 1000) = 90% / 90% = 1
由於提升度Lift(X→Y) =1,表示X與Y相互獨立,即是否有X,對於Y的出現無影響。也就是說,是否購買咖啡,與有沒有購買茶葉無關聯。即規則”茶葉→咖啡“不成立,或者說關聯性很小,幾乎沒有,雖然它的支持度和置信度都高達90%,但它不是一條有效的關聯規則。
判斷關聯規則是否有效的因素:
滿足最小支持度和最小置信度的規則,叫做“強關聯規則”(這個在我們設置算法的時候參數就會設定好)。然而,強關聯規則里,也分有效的強關聯規則和無效的強關聯規則。
如果Lift(X→Y)>1,則規則“X→Y”是有效的強關聯規則。
如果Lift(X→Y) <=1,則規則“X→Y”是無效的強關聯規則。
特別地,如果Lift(X→Y) =1,則表示X與Y相互獨立。
原文鏈接:https://blog.csdn.net/sanqima/article/details/42746419