可提前了解啤酒尿布的小故事
1)若两个或者多个变量的取值之间存在某种规律性,就称为关联。
2)关联规则是寻找在同一个事件中出现的不同项的相关性,比如在以西购买活动中所买不同商品的关联性。(不用考虑具体的指标,只考虑频繁)
3)”在购买计算机的顾客中,有30%的人也同时购买了打印机“-------两者之间肯定是有一些相关性啊,就可以在营销上运用这个规律。
编号 | 牛奶 | 果冻 | 啤酒 | 面包 | 花生酱 |
T1 | 1 | 1 | 0 | 0 | 1 |
T2 | 0 | 1 | 0 | 1 | 0 |
T3 | 0 | 1 | 1 | 0 | 0 |
T4 | 1 | 1 | 0 | 1 | 0 |
T5 | 1 | 0 | 1 | 0 | 0 |
T6 | 0 | 1 | 1 | 0 | 0 |
T7 | 1 | 0 | 1 | 0 | 0 |
T8 | 1 | 1 | 1 | 0 | 1 |
T9 | 1 | 1 | 1 | 0 | 0 |
一个样本成为一个”事务“
每个事务有多个属性来规定,这里的属性称为”项“
多个项组成的集合成为项集,比如:{牛奶}为一项集,{牛奶,果冻}为二项集
支持度:一个项集或者规则在所有事务中出现的频率。
比如:某天100个顾客到商场买东西,其中有30个人同时购买了啤酒和尿布,那么上述的关联规则的支持度为30%
置信度:确定Y在包含X的事务中出现的频繁程度。
置信度反应了关联规则的可信度,购买了项目集中X的商品的顾客同时也购买了Y中商品的可能信有多大
购买薯片的顾客当中有50%也购买了可乐,则置信度为50%
提升度(lift):物品集A的出现对物品集B的出现概率发生了多大的变化。