我們對數據進行分類至少有兩個主要目的,一個是便於查找和統計分析,另一個是便於對事物認知。從數據的角度來講,枚舉數據、參照數據都可以被理解為分類屬性。比如,“人員”數據中的“性別”屬性,是一個枚舉數據。“人員”數據中的“崗位”屬性則是一個參照數據。
數據的分類屬性要遵循三個基本原則。
第一,單一視角。我們不要從多個視角對數據進行分類。比如,對人的分類,我們可以使用性別屬性,可以使用血型屬性,也可以使用膚色屬性,相關的屬性可能還包括崗位、職務級別等屬性。但是每個屬性都有一個自己的獨立視角。
第二,全部覆蓋。分類可以將數據的全集包括在內,也就是說,當前已知的和未來可能會產生的數據,應該都可以歸類到這個分類體系中。
第三,不交叉。一條數據在一個分類體系中不會既可以屬於 “A”,又可以屬於“B”。
在數據分類過程中出現的常見問題與解決方法如下。
1.在多視角需求時,制定多個分類方法
很多人認為一條數據應該只有一種分類屬性,從而在設計過程中蔣各種視角放到這一個分類屬性中。假如,我們有一個筐,里面裝了100個蘿卜。如果按照體積分,那么這些蘿卜可以分成大蘿卜、中蘿卜、小蘿卜三類;如果按照顏色分,那么這些蘿卜可以分成白蘿卜、青蘿卜、紅蘿卜;如果按照品種分,那么這些蘿卜可以分成白蘿卜、心里美和水蘿卜。所以,分類方法可以有很多種,每個使用人的需求不同,其使用的分類方法就不同。
2.在種類繁多的時候,使用多級分類,且避免多重視角
當分類對象的分類內容量比較大時,我們通常采用多級分類的方法。最典型的場景就是企業對物料的分類,分類內容為幾千甚至幾萬種都較為常見。但是我們要避免在一個分類屬性中,包含多種分類方法和視角。比如,第一層按照材料分,第二層按照業務線分,第三層按照品類分。這種分類方法最終會導致分類的混亂和操作的混亂。