(三)特征挖掘


 特征挖掘的框架

 

頻繁特征挖掘基本概念

1.頻繁項集、頻繁子序列、頻繁子結構

2.關聯規則:

  • 購物籃問題:電腦-->反病毒軟件[支持度support=2%, 置信讀confidence=60%],表示所有交易數據中有2%的記錄在購買了電腦與反病毒軟件被同時購買,而所有購買了電腦的用戶中,有60%的用戶也購買了軟件。
  • 計算:

  • 關聯規則的挖掘本質上是頻繁項集的挖掘:兩步

a)找到所有的頻繁項集;

b)基於頻繁項集生成強關聯規則;  

  • 難點及解決方案:

當min_sup設置的很小時,會存在大量的項集滿足約束條件,開銷大==>閉合頻繁項集 + 最大頻繁項集

a)閉合頻繁項集:數據集D中不存在項集Y使得X是其子集且二者支持度數目(support count)相等

b)最大頻繁項集:X是頻繁項集,且不存在頻繁項集使得Y包含項集X

頻繁項集挖掘

  • 先驗(Apriori)算法:發現頻繁項集

1.思想:利用頻繁項集的先驗知識,使用分層搜索的技術,即k項集被用於生成k+1項集

2.先驗性質:

目的,提升分層搜索的效率。定義,所有非空頻繁項集的子集也應該是頻繁項集。

3.L_k-1項集生成L_k項集的過程:兩步,join + prune

4.算法:

 

 5.從頻繁項集到關聯規則:強關聯規則是那些即滿足min_sup又滿足min_conf的頻繁項集

 6.提升先驗算法的效率: a)利用哈希表;b)減少數據量;分割數據;采樣;動態項集計數;

  • FP-growth算法:解決先驗算法開銷大的不足

1.算法

  • 垂直數據格式(vertical data format):

1. 定義:傳統的{TID:itemset}形式的的數據稱為水平數據格式,而垂直數據格式形如{item: TID_set}

2.挖掘方法:每次迭代中將兩組頻繁TID_set聯結在一起

 

頻繁項集的評估

1.原有的support-confidence框架下的關聯關系挖掘規則並不完備,有時具有欺騙性;

2.關聯規則中的相關性分析:

  • lift

其中,lift=1時二者不相關,lift>1正相關,lfft<1負相關

  • chi-square
  • cosine-similarity

多層、多維空間中的特征挖掘

  • 多層關聯關系挖掘:

1.定義:從多個抽象層實現關聯規則的挖掘

2.方法:  在支持度-置信度框架下使用概念分層的策略

  • 多維關聯關系的挖掘:

1.定義:

2.方法

  • 量化的關聯規則的挖掘:

1.方法:解決離散化過程中的問題,a.利用數據塊b.聚類c.統計分析移除異常數據

  • 受限的頻繁特征挖掘

1.約束類型:數據類型、維度、規則等

  • 高緯度與海量特征的挖掘:

 1. 目的:彌補頻繁模式挖掘中僅僅適用於低維度數據的局限性

 2.方法一:利用垂直數據格式來解決數據量小但是高維度的挖掘問題

2.方法二:模式融合  

  • 應用場景
  • 方法:將一部分較短的頻繁模式作為海量模式候選項,以在模式搜索的過程中繞開純BDF與DFS挖掘策略的一些陷阱,進而對海量的頻繁模式進行很好的逼近

 

 引用:

[1] Han J, Pei J, Kamber M. Data mining: concepts and techniques[M]. Elsevier, 2011.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM