關聯規則的可視化
我們嘗試用圖形的方式更直觀地顯示出關聯分析結果,這里需要用到R的擴展軟件包arulesViz。
rules5<-apriori(Groceries,parameter = list(supp=0.002,conf=0.5))
rules5 #顯示生成的關聯規則條數
plot(rules5)
結果分析:圖中每個點對應於相應的支持度和置信度值,分別由圖形的橫縱軸顯示,且其中關聯規則點的顏色深淺由lift值的高低決定。
另外也可以通過更改參數設置,來變換橫縱軸及顏色條所對應的變量,如:
plot(rules5,measure = c("support","lift"),shading="confidence")
結果分析:從圖中我們可以看出大量規則的參數取值分布情況,如提升度較高的關聯規則的支持度往往較低,支持度與置信度具有明顯反相關性等。但不足之處在於,並不能具體得知這些規則對應的是哪些商品,及它們的關聯強度如何等信息。而這一缺陷可通過互動參數(interactive)的設置來彌補。
plot(rules,interactive = T)
結果分析:在圖形下端有5個按鈕。我們可以在圖上通兩次單擊圈定感興趣的若干個點,如上圖所示。有十字形標示的陰影區域中有兩個關聯規則被選定,然后單擊“inspect”按鈕就可以獲取選定點的詳細信息。
結果分析:當單擊“filter”過濾按鈕后,再單擊圖形右側 lift 顏色條中的某處,即可將小於單擊處 lif值的關聯規則點都過濾掉,如圖所示即為過濾掉lift值小於3的點后的互動散點圖。
將參數shading設置為order來繪制Two-key圖,橫縱軸為支持度和可信度,更換連規則點的顏色深淺則表示其所代表的關聯谷子額含有商品多少,商品種類越多,點的顏色越深。
plot(rules5,shading ="order",control=list(main="Two-key plot") )
將圖形類型更改為“grouped”。從圖中按照 lift參數來看,關聯性最強(圓點顏色最深)的兩種商品為黃油(butter)與生/酸奶油(whipped/sour cream);而以 support參數來看則是熱帶水果(tropical fruit)與全脂牛奶(whole milk)關聯性最強(圓點尺寸最大)。
plot ( rules5 , method = "grouped" ) ##對rules5作分組圖