（三）特征挖掘

本文轉載自查看原文 2018-06-11 13:22 876 數據挖掘

特征挖掘的框架

頻繁特征挖掘基本概念

1.頻繁項集、頻繁子序列、頻繁子結構

2.關聯規則：

購物籃問題：電腦-->反病毒軟件[支持度support=2%, 置信讀confidence=60%]，表示所有交易數據中有2%的記錄在購買了電腦與反病毒軟件被同時購買，而所有購買了電腦的用戶中，有60%的用戶也購買了軟件。
計算：

關聯規則的挖掘本質上是頻繁項集的挖掘：兩步

a)找到所有的頻繁項集;

b)基於頻繁項集生成強關聯規則;　　

難點及解決方案：

當min_sup設置的很小時，會存在大量的項集滿足約束條件，開銷大==>閉合頻繁項集 + 最大頻繁項集

a)閉合頻繁項集：數據集D中不存在項集Y使得X是其子集且二者支持度數目(support count)相等

b)最大頻繁項集：X是頻繁項集，且不存在頻繁項集使得Y包含項集X

頻繁項集挖掘

先驗(Apriori)算法：發現頻繁項集

1.思想：利用頻繁項集的先驗知識，使用分層搜索的技術，即k項集被用於生成k+1項集

2.先驗性質：

目的，提升分層搜索的效率。定義，所有非空頻繁項集的子集也應該是頻繁項集。

3.L_k-1項集生成L_k項集的過程：兩步，join + prune

4.算法：

5.從頻繁項集到關聯規則：強關聯規則是那些即滿足min_sup又滿足min_conf的頻繁項集

6.提升先驗算法的效率： a)利用哈希表；b)減少數據量；分割數據；采樣；動態項集計數；

FP-growth算法：解決先驗算法開銷大的不足

1.算法

垂直數據格式(vertical data format)：

1. 定義：傳統的{TID:itemset}形式的的數據稱為水平數據格式，而垂直數據格式形如{item: TID_set}

2.挖掘方法：每次迭代中將兩組頻繁TID_set聯結在一起

頻繁項集的評估

1.原有的support-confidence框架下的關聯關系挖掘規則並不完備，有時具有欺騙性；

2.關聯規則中的相關性分析：

lift

其中，lift=1時二者不相關，lift>1正相關，lfft<1負相關

chi-square
cosine-similarity

多層、多維空間中的特征挖掘

多層關聯關系挖掘：

1.定義：從多個抽象層實現關聯規則的挖掘

2.方法：　　在支持度-置信度框架下使用概念分層的策略

多維關聯關系的挖掘：

1.定義：

2.方法

量化的關聯規則的挖掘：

1.方法：解決離散化過程中的問題，a.利用數據塊b.聚類c.統計分析移除異常數據

受限的頻繁特征挖掘

1.約束類型：數據類型、維度、規則等

高緯度與海量特征的挖掘：

1. 目的：彌補頻繁模式挖掘中僅僅適用於低維度數據的局限性

2.方法一：利用垂直數據格式來解決數據量小但是高維度的挖掘問題

2.方法二：模式融合　　

應用場景
方法：將一部分較短的頻繁模式作為海量模式候選項，以在模式搜索的過程中繞開純BDF與DFS挖掘策略的一些陷阱，進而對海量的頻繁模式進行很好的逼近

引用：

[1] Han J, Pei J, Kamber M. Data mining: concepts and techniques[M]. Elsevier, 2011.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 特征挖掘之對二階特征的提取數據挖掘——特征工程【數據挖掘】特征選擇和降維文本挖掘之特征選擇(python 實現) 數據挖掘特征提取方法-匯集 Python機器學習筆記：使用sklearn做特征工程和數據挖掘數據挖掘入門系列教程（六）之數據集特征選擇 weka數據挖掘拾遺（二）---- 特征選擇（IG、chi-square) Python數據分析與挖掘進階篇1——異常值分析、一致性分析、數據特征分析等（附實例！）特征組合(特征交叉)