關聯分析中的支持度、置信度和提升度


1.支持度(Support)

    支持度表示項集{X,Y}在總項集里出現的概率。公式為:

              Support(X→Y) = P(X,Y) / P(I) = P(X∪Y) / P(I) = num(XUY) / num(I)

 其中,I表示總事務集。num()表示求事務集里特定項集出現的次數。  

            比如,num(I)表示總事務集的個數

                        num(X∪Y)表示含有{X,Y}的事務集的個數(個數也叫次數)。    

2.置信度 (Confidence)

   置信度表示在先決條件X發生的情況下,由關聯規則”X→Y“推出Y的概率。即在含有X的項集中,含有Y的可能性,公式為:

               Confidence(X→Y) = P(Y|X)  = P(X,Y) / P(X) = P(XUY) / P(X) 

3.提升度(Lift)

    提升度表示含有X的條件下,同時含有Y的概率,與Y總體發生的概率之比。

               Lift(X→Y) = P(Y|X) / P(Y)

     例1,已知有1000名顧客買年貨,分為甲乙兩組,每組各500人,其中甲組有500人買了茶葉,同時又有450人買了咖啡;乙組有450人買了咖啡,如表(1)所示:

 

 

 

表(1)年貨購買表

      試求解 1)”茶葉→咖啡“的支持度          #  既買了茶葉又買了咖啡的人/購物人數總數  = 450 / 1000= 0.45 

                   2) "茶葉→咖啡"的置信度          #  既買了茶葉又買了咖啡的人/購買了茶葉人數總數  = 450/500 = 0.9

                   3)”茶葉→咖啡“的提升度         #  在購買了茶葉情況下同時購買了咖啡的概率(其實就是上面的置信度)/購買了咖啡的概率[(450+450)/(500+500)  =  0.9 / 0.9 = 1

    分析:

         設X= {買茶葉},Y={買咖啡},則規則”茶葉→咖啡“表示”即買了茶葉,又買了咖啡“,於是,”茶葉→咖啡“的支持度為

               Support(X→Y) = 450 / (500+500) = 45%      # 此處跟原創文章不一樣,原創應該是筆誤,答案應該是 0.45 

        "茶葉→咖啡"的置信度為

               Confidence(X→Y) = 450 / 500 = 90%

          ”茶葉→咖啡“的提升度為

               Lift(X→Y) = Confidence(X→Y) / P(Y) = 90% /  ((450+450) / 1000) = 90% / 90% = 1

         由於提升度Lift(X→Y) =1,表示X與Y相互獨立,即是否有X,對於Y的出現無影響。也就是說,是否購買咖啡,與有沒有購買茶葉無關聯。即規則”茶葉→咖啡“不成立,或者說關聯性很小,幾乎沒有,雖然它的支持度和置信度都高達90%,但它不是一條有效的關聯規則。

 

判斷關聯規則是否有效的因素:

        滿足最小支持度和最小置信度的規則,叫做“強關聯規則”(這個在我們設置算法的時候參數就會設定好)。然而,強關聯規則里,也分有效的強關聯規則和無效的強關聯規則。

        如果Lift(X→Y)>1,則規則“X→Y”是有效的強關聯規則。

        如果Lift(X→Y) <=1,則規則“X→Y”是無效的強關聯規則。

        特別地,如果Lift(X→Y) =1,則表示X與Y相互獨立。

 



原文鏈接:https://blog.csdn.net/sanqima/article/details/42746419


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM