當我們在學習數據挖掘算法或者機器學習算法時,我們都會發現某些算法僅僅能應用於特定的數據類型。所以在學習數據挖掘算法或者機器學習算法前我們須要對數據類型的屬性度量有一個非常清晰的了解,假設在數據類型這一步就出現故障,無論算法再怎么優異肯定也是白搭!
。
2.1.1 屬性與度量
本節我們考慮使用何種類型的屬性描寫敘述數據對象。來處理描寫敘述數據的問題。
我們首先定義屬性,然后考慮屬性類型的含義,最后介紹常常遇到的屬性類型。
1. 什么是屬性
我們先更具體地定義屬性。
定義2.1 屬性(attribute)是對象的性質或特性,它因對象而異,或隨時間而變化。
比如。眼球顏色因人而異。而物體的溫度隨時間而變。
注意:眼球顏色是一種符號屬性,具有少量可能的值{棕色,黑色,藍色,綠色,淡褐色,……}。而溫度是數值屬性。能夠取無窮多個值。
追根溯源,屬性並不是數字或符號。
然而。為了討論和精細地分析對象的特性,我們為它們賦予了數字或符號。為了用一種明白定義的方式做到這一點,我們須要測量標度。
定義2.2 測量標度(measurement scale)是將數值或符號值與對象的屬性相關聯的規則(函數)。
形式上,測量過程是使用測量標度將一個值與一個特定對象的特定屬性相關聯。這看上去有點抽象,可是不論什么時候,我們總在進行這種測量過程。
比如,踏上浴室的磅秤稱體重;將人分為男女;清點會議室的椅子數目。確定是否可以為全部與會者提供足夠的座位。在全部這些情況下,對象屬性的"物理值"都被映射到數值或符號值。
有了這些背景,如今我們能夠討論屬性類型,這對於確定特定的數據分析技術是否適用於某種詳細的屬性是一個重要的概念。
2. 屬性類型
從前面的討論顯而易見,屬性的性質不必與用來度量它的值的性質同樣。換句話說,用來代表屬性的值可能具有不同於屬性本身的性質,而且反之亦然。我們用兩個樣例解釋。
例2.3 雇員年齡和ID號 與雇員有關的兩個屬性是ID和年齡。這兩個屬性都能夠用整數表示。然而,談論雇員的平均年齡是有意義的,可是談論雇員的平均ID卻毫無意義。
的確。我們希望ID屬性所表達的唯一方面是它們互不同樣。因而,對雇員ID的唯一合法操作就是判定它們是否相等。
但在使用整數表示雇員ID時,並沒暗示有此限制。
對於年齡屬性而言,用來表示年齡的整數的性質與該屬性的性質大同小異。
雖然如此。這樣的相應仍不完備。比如。年齡有最大值,而整數沒有。
例2.4 線段長度 考慮圖2-1,它展示一些線段對象和怎樣用兩種不同的方法將這些對象的長度屬性映射到整數。從上到下,每條后繼線段都是通過最上面的線段自我加入而形成的。這樣,第二條線段是最上面的線段兩次相連而形成的,第三條線段是最上面的線段三次相連而形成的,依次類推。從物理意義上講,所有的線段都是第一條線段的倍數。這個事實由圖右邊的測量捕獲,但未被左邊的測量捕獲。
更准確地說,左邊的測量標度只捕獲長度屬性的序,而右邊的標度同一時候捕獲序和可加性的性質。因此,屬性能夠用一種不描寫敘述屬性所有性質的方式測量。
屬性的類型告訴我們,屬性的哪些性質反映在用於測量它的值中。
知道屬性的類型是重要的,由於它告訴我們測量值的哪些性質與屬性的基本性質一致。從而使得我們能夠避免諸如計算雇員的平均ID這種愚蠢行為。注意,通常將屬性的類型稱作測量標度的類型。
3. 屬性的不同類型
一種指定屬性類型的實用(和簡單)的辦法是。確定相應於屬性基本性質的數值的性質。比如。長度的屬性能夠有數值的很多性質。
依照長度比較對象,確定對象的排序,以及談論長度的差和比例都是有意義的。
數值的例如以下性質(操作)經常常使用來描寫敘述屬性。
(1) 相異性 = 和 。
(2) 序 <、≤、>和≥。
(3) 加法 和 。
(4) 乘法 和 。
給定這些性質,我們能夠定義四種屬性類型:標稱(nominal)、序數(ordinal)、區間(interval)和比率(ratio)。表2-2給出這些類型的定義,以及每種類型上有哪些合法的統計操作等信息。
每種屬性類型擁有其上方屬性類型上的全部性質和操作。因此,對於標稱、序數和區間屬性合法的不論什么性質或操作,對於比率屬性也合法。
換句話說,屬性類型的定義是累積的。
當然。對於某種屬性類型合適的操作,對其上方的屬性類型就不一定合適。
表2-2 不同的屬性類型

標稱和序數屬性統稱分類的(categorical)或定性的(qualitative)屬性。顧名思義。定性屬性(如雇員ID)不具有數的大部分性質。即便使用數(即整數)表示。也應當像對待符號一樣對待它們。其余兩種類型的屬性。即區間和比率屬性,統稱定量的(quantitative)或數值的(numeric)屬性。定量屬性用數表示,而且具有數的大部分性質。注意:定量屬性能夠是整數值或連續值。
屬性的類型也能夠用不改變屬性意義的變換來描寫敘述。實際上,心理學家S. Smith Stevens最先用同意的變換(permissible transformation)定義了表2-2所看到的的屬性類型。
比如,假設長度分別用米和英尺度量,其屬性的意義並未改變。
對特定的屬性類型有意義的統計操作是這樣一些操作,當使用保持屬性意義的變換對屬性進行變換時,它們產生的結果同樣。比如,用米和英尺為單位進行度量時。同一組對象的平均長度數值是不同的,可是兩個平均值都代表同樣的長度。
表2-3給出表2-2中四種屬性類型的同意的(保持意義的)變換。
表2-3 定義屬性層次的變換

例2.5 溫度標度 溫度能夠非常好地解釋前面介紹的一些概念。
首先。溫度能夠是區間屬性或比率屬性,這取決於其測量標度。當溫度用絕對標度測量時,從物理意義上講,2°的溫度是1°的兩倍。當溫度用華氏或攝氏標度測量時則並不是如此,由於這時1°溫度與2°溫度相差並不太多。問題是從物理意義上講,華氏和攝氏標度的零點是硬性規定的,因此,華氏或攝氏溫度的比率並無物理意義。
4. 用值的個數描寫敘述屬性
區分屬性的一種獨立方法是依據屬性可能取值的個數來推斷。
離散的(discrete)離散屬性具有有限個值或無限可數個值。這種屬性能夠是分類的。如郵政編碼或ID號。也能夠是數值的,如計數。通常。離散屬性用整數變量表示。二元屬性(binary attribute)是離散屬性的一種特殊情況,並僅僅接受兩個值,如真/假、是/否、男/女或0/1。通常。二元屬性用布爾變量表示。或者用僅僅取兩個值0或1的整型變量表示。
連續的(continuous)連續屬性是取實數值的屬性。如溫度、高度或重量等屬性。通常,連續屬性用浮點變量表示。實踐中。實數值僅僅能用有限的精度測量和表示。
從理論上講。不論什么測量標度類型(標稱的、序數的、區間的和比率的)都能夠與基於屬性值個數的隨意類型(二元的、離散的和連續的)組合。然而。有些組合並不常出現,或者沒有什么意義。比如,非常難想象一個實際數據集包括連續的二元屬性。
通常,標稱和序數屬性是二元的或離散的,而區間和比率屬性是連續的。然而,計數屬性(count attribute)是離散的,也是比率屬性。
5. 非對稱的屬性
對於非對稱的屬性(asymmetric attribute),出現非零屬性值才是重要的。考慮這樣一個數據集,當中每一個對象是一個學生。而每一個屬性記錄學生是否選修大學的某個課程。
對於某個學生,假設他選修了相應於某屬性的課程,該屬性取值1。否則取值0。因為學生僅僅選修全部可選課程中的非常小一部分,這樣的數據集的大部分值為0。
因此,關注非零值將更有意義、更有效。
否則。假設在學生們不選修的課程上作比較。則大部分學生都非常相似。僅僅有非零值才重要的二元屬性是非對稱的二元屬性。這類屬性對於關聯分析特別重要。關聯分析在第6章討論。也可能有離散的或連續的非對稱特征。比如。假設記錄每門課程的學分,則結果數據集將包括非對稱的離散屬性或連續屬性。
內容來源與參考:數據挖掘導論2.1.1節內容。