Apriori的挑戰及改進方案
挑戰
多次數據庫掃描
巨大數量的候補項集
繁瑣的支持度計算
改善Apriori: 基本想法
減少掃描數據庫的次數
減少候選項集的數量
簡化候選項集的支持度計算
FPGROWTH算法優點
相比Apriori算法需要多次掃描數據庫,FPGrowth只需要對數據庫掃描2次。
第1次掃描獲得當個項目的頻率,去掉不滿足支持度要求的項,並對剩下的項排序。
第2次掃描建立一顆FP-Tree樹。
FPGROWTH算法
事務數據庫
第一步、構造FP-tree
第二步、FP-growth
FPGROWTH算法的優缺點
1、FPGROWTH算法只需對事務數據庫進行二次掃描,並且避免產生的大量候選集。
2、由於該算法要遞歸生成條件FP-tree,所以內存開銷大,而且只能用於挖掘單維的布爾關聯規則。
總結