粗糙集基本概念


轉載:百度文庫

 

  一種對集合A的划分就對應着關於A中元素的一個知識

  面對日益增長的數據庫,人們將如何從這些浩瀚的數據中找出有用的知識?我們如何將所學到的知識去粗取精?么是對事物的粗線條描述?什么是細線條描述?糙集合論回答了上面的這些問題。

  要想了解粗糙集合論的思想,我們先要了解一下什么叫做知識?假設有8 個積木構成了一個集合A,我們記:A={x1,x2,x3,x4,x5,x6,x7,x8} ,每個積木塊都有顏色屬性,按照顏色的不同,我們能夠把這堆積木分成R1={紅,黃,藍} 三個大類,那么:

  • 紅顏色的積木構成集合X1={x1,x2,x6}
  • 黃顏色的積木構成集合X2={x3,x4}
  • 藍顏色的積木構成集合X3={x5,x7,x8} 

按照顏色這個屬性我們就把積木集合A進行了一個划分( 所謂A的划分就是指對於A中的任意一個元素必然屬於且僅屬於一個分類) ,那么我們就說顏色屬性就是一種知識。在這個例子中我們不難看到, 一種對集合A 的划分就對應着關於A 中元素的一個知識,假如還有其他的屬性,比如還有形狀R2={三角, 方塊, 圓形} ,大小R3={大, 中, 小} ,這樣加上R1屬性對A 構成的划分分別為:

  • A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}}(顏色分類)
  • A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}} (形狀分類)
  • A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}} (大小分類)

上面這些所有的分類合在一起就形成了一個基本的知識庫。那么這個基本知識庫能表示什么概念呢?除了紅的{x1,x2,x6} 、大的{x1,x2,x5} 、三角形的{x1,x2} 這樣的概念以外,還可以表達例如:

  • 大的且是三角形的{x1,x2,x5} ∩ {x1,x2}={x1,x2} 
  • 大三角{x1,x2,x5} ∩{x1,x2}={x1,x2} 
  • 色的小的圓形({x5,x7,x8} ∩{x3,x4,x7} ∩{x3,x4,x6,x7}={x7} 
  • 的或者中的積木{x5,x7,x8} ∪{x6,x8}={x5,x6,x7,x8} 

  而類似這樣的概念可以通過求交運算得到,比如X1與Y1的交就表示紅色的三角形。所有的這些能夠用交、並表示的概念以及加上上面的三個基本知識(A/R1,A/R2.A/R3) 一起就構成了一個知識系統記為R=R1∩R2∩R3,它所決定的所有知識是A/R={{x1,x2},{x3,x4},{x5},{x6},{x7},{x8}}(注意:原文中,x3和x4是分開的,應該是作者手誤) 以及A/R 中集合的並。

  下面考慮近似這個概念。假設給定了一個A上的子集合X={x2,x5,x7} ,那么用我們的知識庫中的知識應該怎樣描述它呢?紅色的三角? **** 的大圓?都不是,無論是單屬性知識還是由幾個知識進行交、並運算合成的知識,都不能得到這個新的集合X,於是我們只好用我們已有的知識去近似它。也就是在所有的現有知識里面找出跟他最像的兩個一個作為下近似,一個作為上近似。於是我們選擇了“藍色的大方塊或者藍色的小圓形” 這個概念:{x5,x7}作為X的下近似。選擇“三角形或者蘭色的”{x1,x2,x5,x7} 作為它的上近似,值得注意的是:

  • 下近似集是在那些所有的包含於X 的知識庫中的集合中求並得到的(包含在X內的最大可定義集)
  • 上近似則是將那些包含X的知識庫中的集合求並得到的(包含X的最小可定義集)

一般的,我們可以用下面的圖來表示上、下近似的概念。

這其中藍色曲線圍的區域是X的區域,紫色曲線圍的部分是內部參考消息,是下近似,紅色曲線圍的內部部分就是上近似集。其中各個小方塊可以被看成是論域上的知識系統所構成的所有划分。整個粗集理論的核心就是上面說的有關知識、集合的划分、近似集合等等概念。下面我們討論一下關於粗糙集在數據庫中數據挖掘的應用問題。考慮一個數據庫中的二維表如下:

 

  可以看出,這個表就是上面的那個例子的二維表格體現,而最后一列是我們的決策屬性,也就是說評價什么樣的積木穩定。這個表中的每一行表示了類似這樣的信息:紅色的大三角積木穩定, **** 的小圓形不穩定等等。我們可以把所有的記錄看成是論域A={x1,x2,x3,x4,x5,x6,x7,x8} ,任意一個列表示一個屬性構成了對論域的元素上的一個划分,在划分的每一個類中都具有相同的屬性。而屬性可以分成兩大類,一類叫做條件屬性:顏色、形狀、大小都是,另一類叫做決策屬性:最后一列的是否穩定?下面我們考慮,對於決策屬性來說是否所有的條件屬性都是有用的呢?考慮所有決策屬性是“穩定”的集合{x1,x2,x5} ,它在知識系統A/R 中的上、下近似都是{x1,x2,x5} 本身,“不穩定”的集合{x3,x4,x6,x7,x8} ,在知識系統A/R 中的上、下近似也都是{x3,x4,x6,x7,x8} 它本身。說明該知識庫能夠對這個概念進行很好的描述。

  下面考慮是否所有的基本知識:顏色、形狀、大小都是必要的?如果我們把這個集合在知識系統中去掉顏色這個基本知識,那么知識系統變成

A/(R-R1)={{x1,x2},{x3,x4,x7},{x5},{x6},{x8}} 以及這些子集的並集。如果用這個新的知識系統表達“穩定”概念得到上下近似仍舊都是: {x1,x2,x5} ,“不穩定”概念的上下近似也還是{x3,x4,x6,x7,x8} ,由此看出去掉顏色屬性我們表達穩定性的知識不會有變化,所以說顏色屬性是多余的可以刪除。

如果再考慮是否能去掉大小屬性呢?這個時候知識系統就變為:A/(R-R1-R3)=A/R2={{x1,x2},{x5,x8},{x3,x4,x6,x7}} 。同樣考慮“穩定”在知識系統A/R2 中的上下近似分別為:{x1,x2} 和{x1,x2,x5,x8} ,已經和原來知識系統中的上下近似不一樣了, 同樣考慮“不穩定” 的近似表示也變化了,所以刪除屬性“大小”是對知識表示有影響的故而不能去掉。同樣的討論對於“形狀”屬性也一樣,它是不能去掉的。

  最后我們得到化簡后的知識庫R2,R3,從而能得到下面的決策規則:大三角-> 穩定,大方塊-> 穩定,小圓-> 不穩定,中圓-> 不穩定,中方塊-> 不穩定,利用粗集的理論還可以對這些規則進一步化簡得到:大-> 穩定,圓-> 不穩定,中方塊-> 不穩定。這就是上面這個數據表所包含的真正有用的知識,而這些知識都是從數據庫有粗糙集方法自動學習得到的。

  因此,粗糙集是數據庫中數據挖掘的有效方法。從上面這個例子中我們不難看出,實際上我們只要把這個數據庫輸入進粗糙集運算系統,而不用提供任何先驗的知識,粗糙集算法就能自動學習出知識來,這正是它能夠廣泛應用的根源所在。而在模糊集、可拓集等集合論中我們還要事先給定隸屬函數。目前,粗糙集理論已經廣泛的應用於知識發現、數據挖掘、智能決策、電子控制等多個領域。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM