步驟:
(一) 選擇數據源
(二)選擇要分析的字段
(三)選擇需要的關聯規則算法
(四)點擊start運行
(五) 分析結果
算法選擇:
Apriori算法參數含義
1.car:如果設為真,則會挖掘類關聯規則而不是全局關聯規則。
2.classindex: 類屬性索引。如果設置為-1,最后的屬性被當做類屬性。
3.delta: 以此數值為迭代遞減單位。不斷減小支持度直至達到最小支持度或產生了滿足數量要求的規則。
4.lowerBoundMinSupport: 最小支持度下界。
5.metricType: 度量類型,設置對規則進行排序的度量依據。可以是:置信度(類關聯規則只能用置信度挖掘),提升度(lift),杠桿率(leverage),確信度(conviction)。
在 Weka中設置了幾個類似置信度(confidence)的度量來衡量規則的關聯程度,它們分別是:
a)Lift : P(A,B)/(P(A)P(B)) Lift=1時表示A和B獨立。這個數越大(>1),越表明A和B存在於一個購物籃中不是偶然現象,有較強的關聯度.
b)Leverage :P(A,B)-P(A)P(B)
Leverage=0時A和B獨立,Leverage越大A和B的關系越密切
c) Conviction:P(A)P(!B)/P(A,!B) (!B表示B沒有發生) Conviction也是用來衡量A和B的獨立性。從它和lift的關系(對B取反,代入Lift公式后求倒數)可以看出,這個值越大, A、B越關聯。
6.minMtric :度量的最小值。
7.numRules: 要發現的規則數。
8.outputItemSets: 如果設置為真,會在結果中輸出項集。
9.removeAllMissingCols: 移除全部為缺省值的列。
10.significanceLevel :重要程度。重要性測試(僅用於置信度)。
11.upperBoundMinSupport: 最小支持度上界。 從這個值開始迭代減小最小支持度。
12.verbose: 如果設置為真,則算法會以冗余模式運行。
FPgrowph決策樹算法
FP的全稱是Frequent Pattern,在算法中使用了一種稱為頻繁模式樹(Frequent Pattern Tree)的數據結構。FP-tree是一種特殊的前綴樹,由頻繁項頭表和項前綴樹構成。FP-Growth算法基於以上的結構加快整個挖掘過程。
下一篇:
http://www.cnblogs.com/tomcattd/p/3478678.html