原文:數據挖掘之關聯分析四(連續屬性處理)

處理連續屬性 挖掘連續屬性可能揭示數據的內在聯系,包含連續屬性的關聯規則通常稱作量化關聯規則 quantitative association rule 。 主要討論三種對連續數據進行關聯分析的方法 基於離散化的方法 基於統計學的方法 非離散化方法 基於離散化方法 離散化是處理連續屬性最常用的方法,這種方法將連續屬性的鄰近值分組,形成有限個區間,例如,年齡屬性可以形成如下區間 年齡 in , , ...

2015-08-18 20:39 0 6093 推薦指數:

查看詳情

數據挖掘關聯分析一(基本概念)

許多商業企業運營中的大量數據,通常稱為購物籃事務(market basket transaction)。表中每一行對應一個事務,包含一個唯一標識TID。 利用關聯分析的方法可以發現聯系如關聯規則或頻繁項集。 關聯分析需要處理的關鍵問題: 從大型事務數據集中發現模式可能在計算上要付出很高 ...

Wed Aug 19 05:05:00 CST 2015 0 21064
數據挖掘關聯分析六(子圖模式)

子圖模式 頻繁子圖挖掘(frequent subgraph mining):在圖的集合中發現一組公共子結構。 圖和子圖 圖是一種用來表示實體集之間聯系的數據結構。 子圖,圖\(G' = (V', E')\)是另一個圖\(G = (V, E)\)的子圖,如果它的頂點集V'是V的子集 ...

Fri Aug 21 00:12:00 CST 2015 0 8996
數據挖掘關聯分析三(規則的產生)

規則產生 忽略那些前件和后件為空的規則,每個頻繁k項集能夠產生\(2(2^k-1)\)個關聯規則。將頻繁項集Y划分為兩個非空子集X和Y-X,使得\(X \to Y-X\)能滿足置信度閾值,就可以得到滿足條件的規則。 在計算規則的置信度時並不需要再次掃描事務數據集,因為產生規則的頻繁項集和它 ...

Wed Aug 19 06:20:00 CST 2015 0 4091
數據挖掘關聯分析五(序列模式)

購物籃數據常常包含關於商品何時被顧客購買的時間信息,可以使用這種信息,將顧客在一段時間內的購物拼接成事務序列,這些事務通常基於時間或空間的先后次序。 問題描述 一般地,序列是元素(element)的有序列表。可以記做\(s = (e_1, e_2, \cdots, e_n)\),其中每個 ...

Thu Aug 20 03:41:00 CST 2015 3 8980
數據挖掘算法:關聯分析一(基本概念)

一.基本概念   我們來看上面的事務庫,如同上表所示的二維數據集就是一個購物籃事務庫。該事物庫記錄的是顧客購買商品的行為。這里的TID表示一次購買行為的編號,items表示顧客購買了哪些商品。   事務:   事務庫中的每一條記錄被稱為一筆事務。在上表的購物籃事務中,每一筆事務都表示一次 ...

Mon Dec 11 19:28:00 CST 2017 0 1851
數據挖掘復習筆記(三、關聯規則分析

1.關聯規則分析的定義 關聯分析(Association Analysis)用於發現隱藏在大型數據集中的令人感興趣的聯系。聯系的表示方式一般為關聯規則或頻繁項集,例:{尿布}→{啤酒}。 2.關聯規則分析的基本概念 項集:項的集合稱為項集。一個包含k個數據項的項集就稱為k−項集。 項集 ...

Thu Dec 07 22:28:00 CST 2017 0 1417
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM