名詞:
挖掘數據集:購物籃數據
挖掘目標:關聯規則
關聯規則:啤酒=>尿布(支持度0.02,置信度0.6)
支持度:所有數據中有2%的購物記錄包含了啤酒和尿布
置信度:所有包含啤酒的購物記錄里有60%包含尿布
最小支持度閾值和最小置信度閾值。
項集:項(商品)組成的集合
K-項集:k個項組成的集合
頻繁項集:滿足最小支持度的項集
強關聯規則:滿足最小支持閾值和最小置信度閾值的規則
步驟:
找出所有頻繁項集;由頻繁項集產生強關聯規則。
案例:
TID為購物記錄,List of item_ID為商品ID,如第T100條購物記錄中,包含商品I1,I2,I5。
最后推出的關聯規則有:
R語言操作:
包:arules
數據集:Groceries(內置數據集)
函數:inspect:顯檢查,示一個的文集或一個術語文檔矩陣的詳細信息。查看數據。
apriori:提取關聯規則
代碼:
結果如下:
結果展示的即為每一種消費記錄推出同時購買某種商品的支持度和置信度。最右邊的lift參數表明該規則的可信度,如果等於1,嘖表明前面的商品與關聯商品是獨立的。lift值越大,表明規則越可信。