介紹
RoughSets算法是一種比較新穎的算法,粗糙集理論對於數據的挖掘方面提供了一個新的概念和研究方法。本篇文章我不會去介紹令人厭煩的學術概念,就是簡單的聊聊RoughSets算法的作用,直觀上做一個了解。此算法的應用場景是,面對一個龐大的數據庫系統,如何從里面分析出有效的信息,如果一database中有幾十個字段,有我們好受的了,但是一般的在某些情況下有些信息在某些情況下是無用的或者說是無效的,這時候我們假設在不影響最終決策分類結果的情況下,對此屬性進行約簡。這就是RoughSets所干的事情了。
算法原理
算法的原理其實很簡單,所有屬性分為2種屬性1類為條件屬性,1類為決策屬性,我們姑且把決策屬性設置在數據列的最后一列,算法的步驟依次判斷條件屬性是否能被約簡,如果能被約簡,此輸出約簡屬性后的規則,規則的形式大體類似於IF---THEN的規則。
在屬性約簡算法中,都離不開近似度的計算,即正區域的計算。屬性重要性的計算也是基於正區域或者近似精度的。由於要求不斷擴大的條件屬性子集R計算,如何有效地計算近似精度對提高算法是很有意義的。