特征挖掘的框架
頻繁特征挖掘基本概念
1.頻繁項集、頻繁子序列、頻繁子結構
2.關聯規則:
- 購物籃問題:電腦-->反病毒軟件[支持度support=2%, 置信讀confidence=60%],表示所有交易數據中有2%的記錄在購買了電腦與反病毒軟件被同時購買,而所有購買了電腦的用戶中,有60%的用戶也購買了軟件。
- 計算:
- 關聯規則的挖掘本質上是頻繁項集的挖掘:兩步
a)找到所有的頻繁項集;
b)基於頻繁項集生成強關聯規則;
- 難點及解決方案:
當min_sup設置的很小時,會存在大量的項集滿足約束條件,開銷大==>閉合頻繁項集 + 最大頻繁項集
a)閉合頻繁項集:數據集D中不存在項集Y使得X是其子集且二者支持度數目(support count)相等
b)最大頻繁項集:X是頻繁項集,且不存在頻繁項集使得Y包含項集X
頻繁項集挖掘
- 先驗(Apriori)算法:發現頻繁項集
1.思想:利用頻繁項集的先驗知識,使用分層搜索的技術,即k項集被用於生成k+1項集
2.先驗性質:
目的,提升分層搜索的效率。定義,所有非空頻繁項集的子集也應該是頻繁項集。
3.L_k-1項集生成L_k項集的過程:兩步,join + prune
4.算法:
5.從頻繁項集到關聯規則:強關聯規則是那些即滿足min_sup又滿足min_conf的頻繁項集
6.提升先驗算法的效率: a)利用哈希表;b)減少數據量;分割數據;采樣;動態項集計數;
- FP-growth算法:解決先驗算法開銷大的不足
1.算法
- 垂直數據格式(vertical data format):
1. 定義:傳統的{TID:itemset}形式的的數據稱為水平數據格式,而垂直數據格式形如{item: TID_set}
2.挖掘方法:每次迭代中將兩組頻繁TID_set聯結在一起
頻繁項集的評估
1.原有的support-confidence框架下的關聯關系挖掘規則並不完備,有時具有欺騙性;
2.關聯規則中的相關性分析:
- lift
其中,lift=1時二者不相關,lift>1正相關,lfft<1負相關
- chi-square
- cosine-similarity
多層、多維空間中的特征挖掘
- 多層關聯關系挖掘:
1.定義:從多個抽象層實現關聯規則的挖掘
2.方法: 在支持度-置信度框架下使用概念分層的策略
- 多維關聯關系的挖掘:
1.定義:
2.方法
- 量化的關聯規則的挖掘:
1.方法:解決離散化過程中的問題,a.利用數據塊b.聚類c.統計分析移除異常數據
- 受限的頻繁特征挖掘
1.約束類型:數據類型、維度、規則等
- 高緯度與海量特征的挖掘:
1. 目的:彌補頻繁模式挖掘中僅僅適用於低維度數據的局限性
2.方法一:利用垂直數據格式來解決數據量小但是高維度的挖掘問題
2.方法二:模式融合
- 應用場景
- 方法:將一部分較短的頻繁模式作為海量模式候選項,以在模式搜索的過程中繞開純BDF與DFS挖掘策略的一些陷阱,進而對海量的頻繁模式進行很好的逼近
引用:
[1] Han J, Pei J, Kamber M. Data mining: concepts and techniques[M]. Elsevier, 2011.