1.數據離散化和概念分層的原理和目的
通過將屬性值域划分為區間,用區間標記代替實際的數值,用來減少給定連續屬性值的個數。
2.離散化技術分類
例如:自頂向下:首先找出一個或幾個點作為分裂點來對真個屬性空間進行划分,然后再在結果區間上遞歸重復該過程。
自底向上:首相將所有的連續之看做分裂點,然后合並相近的屬性區間,減少分裂點,然后遞歸的調用該過程。
3.數值數據的離散化和概念分層的產生方法
a.分箱。基於箱的指定個數,自頂向下的分裂技術。概念與前面的一樣。
b.直方圖分析。同前面所述直方圖的意義。
c.基於熵的離散化。是一種監督的,自頂向下的分裂技術。
該方法原理:選擇屬性A中具有最小熵的值作為分裂點,並遞歸的划分結果區間,直到所有候選分類點上的最小信息需求(基於熵的某個公式)小於某個閾值或者結果區間的個數大於某個閾值。其中屬性A為D的類標號屬性。即:基於熵的離散化使用元祖的類標號信息,類標號屬性提供每個元祖的類信息。
注:這里的熵指信息熵。是對不確定性的一種度量。信息量越大,不確定性就越小,熵也就越小;信息量越小,不確定性越大,熵也越大。根據熵的特性,我們可以通過計算熵值來判斷一個事件的隨機性及無序程度,也可以用熵值來判斷某個指標的離散程度,指標的離散程度越大,該指標對綜合評價的影響越大。
d.基於X2分布的區間合並。
該方法原理:使用類信息,采用自底向上的策略,遞歸的合並相似的近鄰區間,終止條件為:所有相鄰區間對X2小於指定額閾值。計算近鄰區間相似度的方法為:XXXXX.類似於前面所述的數據集成中卡方檢驗。適用對象:區間離散化的屬性。
其中,數據相依表表示為:表有兩列表示兩個近鄰區間,M行代表M個類分區。Oij表示第i個區間里類j的元祖個數,Eij=(區間i中元祖的個數)*(類j中元祖的個數)/數據與與元祖的總數。
e.聚類分析
f.根據直觀划分離散化。為了使所划分的區間更加自然,規整(例如不出現大量的小數,整數位除最高位外全部為0)。
規則:3-4-5規則。根據最高有效位的取值范圍,將區間划分為相對等寬的幾個3,4,或5個區間。
如果最高有效位包含3,7(2,3,2),6,9個不同的值,則划分為三個區間;如果包含2,4,8個不同的值,則划分為4個區間;如果包含1,5,10個不同的值,則划分為5個等寬的區間。
步驟:
1.根據信息的最大max最小值min確定所需考慮的最低low(第5個百分位數)和最高high值(第95個百分位數)。
2.根據low,high確定最高有效位的位(個位,十位,百分位。。。。),則令msd=1,10,100。。。。。然后將low,higi向下和向上取值(使區間能夠包含low,high范圍),得到新的low和high。
3.計算最高有效位取值的不同個數=(high-low)/msd.並根據上面的規則確定划分區間。
4.向上向下兼容。如果min>low,則使low=min,否則創建新區間(min,low],在high處同樣使用此方法。
5.可以遞歸的使用此方法對每一個結果區間進行划分操作。
4.分類數據的概念分層產生。
a.分類數據是離散數據,具有有限個值,值之間無序。