關聯分析中的支持度、置信度和提升度

本文轉載自查看原文 2019-12-04 16:40 867 數據分析算法筆記

1.支持度（Support）

支持度表示項集{X,Y}在總項集里出現的概率。公式為：

Support(X→Y) = P(X,Y) / P(I) = P(X∪Y) / P(I) = num(XUY) / num(I)

其中，I表示總事務集。num()表示求事務集里特定項集出現的次數。

比如，num(I)表示總事務集的個數

num(X∪Y)表示含有{X,Y}的事務集的個數（個數也叫次數）。

2.置信度（Confidence）

置信度表示在先決條件X發生的情況下，由關聯規則”X→Y“推出Y的概率。即在含有X的項集中，含有Y的可能性，公式為：

Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(XUY) / P(X)

3.提升度（Lift）

提升度表示含有X的條件下，同時含有Y的概率，與Y總體發生的概率之比。

Lift(X→Y) = P(Y|X) / P(Y)

例1，已知有1000名顧客買年貨，分為甲乙兩組，每組各500人，其中甲組有500人買了茶葉，同時又有450人買了咖啡；乙組有450人買了咖啡，如表（1）所示：

表（1）年貨購買表

試求解 1）”茶葉→咖啡“的支持度 # 既買了茶葉又買了咖啡的人/購物人數總數 = 450 / 1000= 0.45

2) "茶葉→咖啡"的置信度 # 既買了茶葉又買了咖啡的人/購買了茶葉人數總數 = 450/500 = 0.9

3）”茶葉→咖啡“的提升度 # 在購買了茶葉情況下同時購買了咖啡的概率（其實就是上面的置信度）/購買了咖啡的概率[（450+450）/（500+500） = 0.9 / 0.9 = 1

分析：

設X= {買茶葉}，Y={買咖啡}，則規則”茶葉→咖啡“表示”即買了茶葉，又買了咖啡“，於是，”茶葉→咖啡“的支持度為

Support(X→Y) = 450 / （500+500) = 45% # 此處跟原創文章不一樣，原創應該是筆誤，答案應該是 0.45

"茶葉→咖啡"的置信度為

Confidence(X→Y) = 450 / 500 = 90%

”茶葉→咖啡“的提升度為

Lift(X→Y) = Confidence(X→Y) / P(Y) = 90% / ((450+450) / 1000) = 90% / 90% = 1

由於提升度Lift(X→Y) =1，表示X與Y相互獨立，即是否有X，對於Y的出現無影響。也就是說，是否購買咖啡，與有沒有購買茶葉無關聯。即規則”茶葉→咖啡“不成立，或者說關聯性很小，幾乎沒有，雖然它的支持度和置信度都高達90%，但它不是一條有效的關聯規則。

判斷關聯規則是否有效的因素：

滿足最小支持度和最小置信度的規則，叫做“強關聯規則”（這個在我們設置算法的時候參數就會設定好）。然而，強關聯規則里，也分有效的強關聯規則和無效的強關聯規則。

如果Lift(X→Y)>1，則規則“X→Y”是有效的強關聯規則。

如果Lift(X→Y) <=1，則規則“X→Y”是無效的強關聯規則。

特別地，如果Lift(X→Y) =1，則表示X與Y相互獨立。

原文鏈接：https://blog.csdn.net/sanqima/article/details/42746419

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 關聯分析中的支持度、置信度和提升度數據挖掘關聯分析中的支持度、置信度和提升度關聯分析--概述（項集、關聯規則、支持度、置信度、提升度）支持度、置信度和提升度支持度、置信度、提升度的區別和計算關聯規則中最小支持度和最小置信度【數據倉庫與數據挖掘 - 關聯分析算法】頻繁項集？關聯規則？支持度？置信度？自連接？數據挖掘 ---支持度和置信度的用法 MATLAB灰色關聯度分析 beta函數與置信度估計