處理連續屬性
挖掘連續屬性可能揭示數據的內在聯系,包含連續屬性的關聯規則通常稱作量化關聯規則(quantitative association rule)。
主要討論三種對連續數據進行關聯分析的方法
- 基於離散化的方法
- 基於統計學的方法
- 非離散化方法
基於離散化方法
離散化是處理連續屬性最常用的方法,這種方法將連續屬性的鄰近值分組,形成有限個區間,例如,年齡屬性可以形成如下區間
年齡 $ \in $ [12, 16), 年齡\(\in\) [16, 20)……
離散化可以使用任意技術(如等區間寬度、等頻率、等熵、或聚類)實現。
屬性離散化一個關鍵參數時用於划分每個屬性的區間。通常這個參數由用戶提供,單可能會遇到下面問題
- 如果區間太寬,則肯能因為缺乏置信度而丟失某些模式。
盡管具有較高的支持度,但是因為較寬的區間導致規則的置信度都小於閾值。
2. 如果區間太窄,則可能因為缺乏支持度而丟失某些模式。
3. 當區間不合適時,可能導致有些規則被分裂成子規則,如果自規則的置信度和支持度都足夠高,就可以通過聚類來恢復原來的規則,但是如果置信度或者支持度較低,則不能恢復原來的規則。
處理這些問題的一個方法是通過考慮鄰近區間的每個分組,但是也會導致下面的計算問題
- 計算開銷大
- 提取許多冗余規則,如
其中\(R_4\)是\(R_3\)的泛化,如果兩個規則的置信度值相同,則\(R_4\)更有趣,因為其涵蓋更多的例子。此時\(R_3\)是冗余的。
基於統計學的方法
量化關聯規則可以用來推斷總體的統計性質,基於統計學的方法,可以提取如下形式
規則表明年收入超過¥100K並且定期在網上購物的因特網用戶的平均年齡為38歲。
規則產生
為了產生基於統計學的量化關聯規則,必須制定用於刻畫有趣總體段特性的目標屬性。保留目標屬性,使用上面的方法對數據的其余連續屬性和分類屬性進行二元化。然后使用已有的算法如Apriori算法從二元化數據中提取頻繁項集,每個頻繁項集確定一個有趣總體段。使用均值、中位數、方差或絕對偏差等統計量對目標屬性在每個段內的分布進行匯總。如在上面的例子中通過對頻繁項集$ { 年收入 > $100K, 網上購物 = 是 } $ 統計因特網用戶平均年齡。此時年齡為目標屬性。
規則確認
僅當由規則覆蓋的事務計算的統計量不同於由為被規則覆蓋的事務計算的統計量時,該量化規則才是有趣的。例如,僅當不支持規則$ { 年收入 > $100K, 網上購物 = 是 } $ 的因特網用戶平均年齡顯著大於或小於38歲時,上面得到的規則才是有趣的。為了確保該平均年齡差是否具有統計意義,應當使用統計假設檢驗方法進行檢驗。
考慮量化關聯規則\(A \to t: \mu\),其中A是頻繁項集,t是連續的目標屬性,而\(\mu\)是被A覆蓋的事務t的均值。此外,設\(\mu'\)是未被覆蓋的事務的均值,目標檢驗\(\mu\)和\(\mu'\)之間的差是夠大於用戶設定的閾值\(\Delta\)。在統計假設檢驗中,兩個相反的假設分別為原假設(null hypothesis)和備擇假設(alternative hypothesis)。
假定\(\mu<\mu'\),原假設為\(H_0: \mu' = \mu + \Delta\),備擇假設為\(H_1: \mu' > \mu + \Delta\)。使用正態分布進行檢驗,計算統計量
其中\(n_1\)和$ n_2 \(分別是支持和不支持A的事務個數,\) s_1 \(和\) s_2 \(是標准差。Z是標准正態分布,均值為0.方差為1.計算得到的Z值和置信水平的閾值\) Z_{\alpha} \(進行比較,如果\)Z>Z_{\alpha}$,則拒絕原假設,選擇備擇假設,我們可以斷言該關聯規則是有趣的。否則,數據中沒有足夠的證據證明均值之差具有統計意義。
非離散化方法
在一些應用中,令分析者感興趣的不是連續屬性的離散區間之間聯系,而是連續屬性之間的聯系。例如文本文檔中詞的關聯,以相同方式變化的集合可以具有想死的支持度值。
文本挖掘中,分析者更感興趣的是詞之間的聯系,如(數據和挖掘)之間的聯系,而不是每個詞頻的區間關聯,如(數據\(\in\)[1, 4],挖掘\(\in\)[2, 3])。一種方法是將數據變為0/1矩陣,超過某個閾值t記為1,否則為0。盡管該方法可以是分析者利用已有的頻繁模式挖掘算法對二元數據進行分析,但是確定t值是一個很棘手的問題。如果閾值太大,則會失去很多關聯,如果太小,則可能有很多錯誤的關聯。
另一種發現詞關聯的方法稱作min-Apriori。和傳統的關聯分析類似,項集是詞的匯集,而支持度用來度量詞之間的關聯程度。項集的支持度可以根據對應詞的規范化頻率計算(規范化是為了確保數據在相同的尺度上)。給定文檔中詞之間的關聯通過獲取他們之間的規范化頻率最小值得到,如\(world_1\)和\(world_2\)之間的支持度為\(min(word_1,word_2)\),項集的支持度通過兩個詞在所有文檔中最小支持度的聚集得到。如\(min(word_1,word_2) = min(5,3)+\cdots\)
min-Apriori中支持度具有以下性質
- 支持度隨詞的規范化頻率增加而單調遞增。
- 支持度隨包含該詞的文檔數增加而遞增。
- 支持度具有反單調性。支持度項集隨項集中詞數的增加而單調遞減,考慮一對項集{A, B}和{A, B, C},我們可以得到\(min({A, B}) \geq min({A, B, C})\),從而有\(s({A, B}) \geq s({A, B, C})\)
數據挖掘之關聯分析一(基本概念)
數據挖掘之關聯分析二(頻繁項集的產生)
數據挖掘之關聯分析三(規則的產生)
數據挖掘之關聯分析四(連續屬性處理)
數據挖掘之關聯分析五(序列模式)
數據挖掘之關聯分析六(子圖模式)
數據挖掘之關聯分析七(非頻繁模式)