規則產生
忽略那些前件和后件為空的規則,每個頻繁k項集能夠產生\(2(2^k-1)\)個關聯規則。將頻繁項集Y划分為兩個非空子集X和Y-X,使得\(X \to Y-X\)能滿足置信度閾值,就可以得到滿足條件的規則。
在計算規則的置信度時並不需要再次掃描事務數據集,因為產生規則的頻繁項集和它們的子集也都是頻繁項集,我們在提取頻繁項集時,已經計算過它們的支持度計數,因而不需要再掃描所有的數據集。
基於置信度的剪枝
置信度不像支持度那樣具有任何單調性。但是具有以下定理
定理:如果規則\(X \to Y-X\)不滿足置信度閾值,則形如$ X' \to Y-X'$的規則也一定不滿足置信度閾值,其中X'是X的子集。X'的支持度計數根據置信度計算公式可推理得到
Apriori算法中規則的產生
Apriori算法使用一種逐層方法來產生關聯規則,其中層數對應於規則的構建中的項數。初始提取規則后件只有一個項的所有高置信度規則,然后使用這些規則來產生新的候選規則。
如果$ {acd} \to {b} \(和\) {abd} \to {c} \(是兩個高置信度的規則,則通過合並兩個規則的后件產生候選規則,如果格中的任意結點置信度較低,則根據定理應該剪去該枝,假設\) {bcd} \to a $具有較低的置信度,則根據定理的條件剪去左右子集的枝。
數據挖掘之關聯分析一(基本概念)
數據挖掘之關聯分析二(頻繁項集的產生)
數據挖掘之關聯分析三(規則的產生)
數據挖掘之關聯分析四(連續屬性處理)
數據挖掘之關聯分析五(序列模式)
數據挖掘之關聯分析六(子圖模式)
數據挖掘之關聯分析七(非頻繁模式)