Weka學習之關聯規則分析

本文轉載自查看原文 2013-12-16 11:24 5669 weka/ Pentaho/ 數據挖掘

步驟：

（一）選擇數據源

（二）選擇要分析的字段

（三）選擇需要的關聯規則算法

（四）點擊start運行

（五）分析結果

算法選擇：

Apriori算法參數含義

1.car：如果設為真，則會挖掘類關聯規則而不是全局關聯規則。
2.classindex：類屬性索引。如果設置為-1，最后的屬性被當做類屬性。
3.delta：以此數值為迭代遞減單位。不斷減小支持度直至達到最小支持度或產生了滿足數量要求的規則。
4.lowerBoundMinSupport：最小支持度下界。
5.metricType：度量類型，設置對規則進行排序的度量依據。可以是：置信度（類關聯規則只能用置信度挖掘），提升度(lift)，杠桿率(leverage)，確信度(conviction)。
在 Weka中設置了幾個類似置信度(confidence)的度量來衡量規則的關聯程度，它們分別是：
a)Lift ： P(A,B)/(P(A)P(B)) Lift=1時表示A和B獨立。這個數越大(>1)，越表明A和B存在於一個購物籃中不是偶然現象,有較強的關聯度.
b)Leverage :P(A,B)-P(A)P(B)
Leverage=0時A和B獨立，Leverage越大A和B的關系越密切
c) Conviction:P(A)P(!B)/P(A,!B) （!B表示B沒有發生） Conviction也是用來衡量A和B的獨立性。從它和lift的關系（對B取反，代入Lift公式后求倒數）可以看出，這個值越大, A、B越關聯。
6.minMtric ：度量的最小值。
7.numRules：要發現的規則數。
8.outputItemSets：如果設置為真，會在結果中輸出項集。
9.removeAllMissingCols：移除全部為缺省值的列。
10.significanceLevel ：重要程度。重要性測試（僅用於置信度）。
11.upperBoundMinSupport：最小支持度上界。從這個值開始迭代減小最小支持度。
12.verbose：如果設置為真，則算法會以冗余模式運行。

FPgrowph決策樹算法

FP的全稱是Frequent Pattern，在算法中使用了一種稱為頻繁模式樹（Frequent Pattern Tree）的數據結構。FP-tree是一種特殊的前綴樹，由頻繁項頭表和項前綴樹構成。FP-Growth算法基於以上的結構加快整個挖掘過程。

http://www.cnblogs.com/tomcattd/p/3478678.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Weka關聯規則分析數據挖掘：關聯規則的apriori算法在weka的源碼分析機器學習算法——關聯規則機器學習筆記之關聯規則機器學習筆記——關聯規則數據挖掘系列（4）使用weka做關聯規則挖掘【煉數成金 RapidMiner 三】關聯分析、關聯規則關聯分析--關聯規則的可視化 Python之關聯規則關聯規則