數據挖掘概念與技術(韓家偉)閱讀筆記7--數據離散化和概念分層的產生


1.數據離散化和概念分層的原理和目的

  通過將屬性值域划分為區間,用區間標記代替實際的數值,用來減少給定連續屬性值的個數。

2.離散化技術分類

  例如:自頂向下:首先找出一個或幾個點作為分裂點來對真個屬性空間進行划分,然后再在結果區間上遞歸重復該過程。

              自底向上:首相將所有的連續之看做分裂點,然后合並相近的屬性區間,減少分裂點,然后遞歸的調用該過程。

3.數值數據的離散化和概念分層的產生方法

  a.分箱。基於箱的指定個數,自頂向下的分裂技術。概念與前面的一樣。

  b.直方圖分析。同前面所述直方圖的意義。

  c.基於熵的離散化。是一種監督的,自頂向下的分裂技術。

    該方法原理:選擇屬性A中具有最小熵的值作為分裂點,並遞歸的划分結果區間,直到所有候選分類點上的最小信息需求(基於熵的某個公式)小於某個閾值或者結果區間的個數大於某個閾值。其中屬性A為D的類標號屬性。即:基於熵的離散化使用元祖的類標號信息,類標號屬性提供每個元祖的類信息。

    注:這里的熵指信息熵。是對不確定性的一種度量。信息量越大,不確定性就越小,熵也就越小;信息量越小,不確定性越大,熵也越大。根據熵的特性,我們可以通過計算熵值來判斷一個事件的隨機性及無序程度,也可以用熵值來判斷某個指標的離散程度,指標的離散程度越大,該指標對綜合評價的影響越大。

      d.基於X2分布的區間合並。

    該方法原理:使用類信息,采用自底向上的策略,遞歸的合並相似的近鄰區間,終止條件為:所有相鄰區間對X2小於指定額閾值。計算近鄰區間相似度的方法為:XXXXX.類似於前面所述的數據集成中卡方檢驗。適用對象:區間離散化的屬性。

        

    其中,數據相依表表示為:表有兩列表示兩個近鄰區間,M行代表M個類分區。Oij表示第i個區間里類j的元祖個數,Eij=(區間i中元祖的個數)*(類j中元祖的個數)/數據與與元祖的總數。

   e.聚類分析

   f.根據直觀划分離散化。為了使所划分的區間更加自然,規整(例如不出現大量的小數,整數位除最高位外全部為0)。

    規則:3-4-5規則。根據最高有效位的取值范圍,將區間划分為相對等寬的幾個3,4,或5個區間。

      如果最高有效位包含3,7(2,3,2),6,9個不同的值,則划分為三個區間;如果包含2,4,8個不同的值,則划分為4個區間;如果包含1,5,10個不同的值,則划分為5個等寬的區間。

    步驟:

      1.根據信息的最大max最小值min確定所需考慮的最低low(第5個百分位數)和最高high值(第95個百分位數)。

      2.根據low,high確定最高有效位的位(個位,十位,百分位。。。。),則令msd=1,10,100。。。。。然后將low,higi向下和向上取值(使區間能夠包含low,high范圍),得到新的low和high。

      3.計算最高有效位取值的不同個數=(high-low)/msd.並根據上面的規則確定划分區間。

      4.向上向下兼容。如果min>low,則使low=min,否則創建新區間(min,low],在high處同樣使用此方法。

      5.可以遞歸的使用此方法對每一個結果區間進行划分操作。

4.分類數據的概念分層產生。

  a.分類數據是離散數據,具有有限個值,值之間無序。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM