一、概述
- 現實中的數據一般有噪聲、數量龐大並且可能來自異種數據源。
- 數據集由數據對象組成,一個數據對象代表一個實體。
- 數據對象:又稱樣本、實例、數據點或對象。
- 數據對象以數據元組的形式存放在數據庫中,數據庫的行對應於數據對象,列對應於屬性。
- 屬性是一個數據字段,表示數據對象的特征,在文獻中,屬性、維度(dimension)、特征(feature)、變量(variance)可以互換的使用。
- “維”,一般用在數據倉庫中。
- “特征”,一般用在機器學習中。
- “變量”,一般用在統計學中。
- 一個屬性的類型由該屬性可能具有的值的集合決定,可以是標稱的、二元的、序數的、數值的。
二、標稱屬性(nominal attribute)
1)特點
- 標稱屬性的值是一些符號或事物的名稱。
- 每個值代表某種類別、編碼、狀態,因此標稱屬性又被看做是分類的(categorical)。
- 標稱屬性的值不具有有意義的序,而且不是定量的。(也就是說,給定一個對象集,找出這種屬性的均值沒有意義)
2)其它
- 這些值不必具有有意義的序,在計算機科學中,這些值也被看做是枚舉的(enumeration)。
- 盡管標稱屬性的值是一些符號或“事物的名稱”,但也可以用數表示這些符號或名稱,如 hari_color,可以用 0 表示黑色,1 表示黃色。
- 但一種屬性中最長出現的值,稱為眾數(mode),是一種中心趨勢度量。
# 例:hari_color(頭發顏色)、marital_status(婚姻狀況)、occupation(職業),都是標稱屬性,表示對象的特征。
三、二元屬性(binary attitute)
1)特點
- 二元屬性是一種標稱屬性,只有兩個狀態:0 或 1,其中 0 通常表示該屬性不出現,1 表示出現。
- 二元屬性又稱布爾屬性,如果兩種狀態對應的是 true 和 false。
2)其它
- 對稱的二元屬性:如果兩種狀態具有同等價值,並且攜帶相同權重,如表示性別,則 0 和 1 分別表示男性或女性沒有影響。
- 非對稱的二元屬性:兩種狀態的結果不是同等重要的,如 HIV 患者和不是 HIV 患者,為了方便計,將用 1 對最重要的結果(通常是稀有的)編碼(如,HIV 患者),而另一個用 0 編碼。
四、序數屬性(ordinal attribute)
1)特點
- 屬性對應的可能的值之間具有有意義的序或秩評定(ranking),但是相繼值之間的查是未知的。(也就是對應的值有先后次序)
2)其它
- 例:drink_size,表示飲料杯的大小:小、中、大,這些值具有有意義的先后次序。
- 序數屬性可以通過把數值量的值域划分成有限個有序類別(如,0-很不滿意、1-不滿意、2-中性、3-滿意、4-很滿意),把數值屬性離散化而得到。
- 可以用眾數和中位數表示序數屬性的中性趨勢,但不能定義均值。
- 標稱、二元和序數屬性都是定性的,即,它們描述對象的特征,而不給出實際大小或數值。
五、數值屬性(numeric attribute)
-
特點
- 是定量的可度量的量,用整數或實數表示。
- 可以是區間標度的或比率標度的。
1)區間標度(interval-scaled)屬性
- 例:temperature(溫度)屬性,一般表示:10℃~15℃。
- 特點:
- 用相等的單位尺度度量,區間屬性的值有序,可以為正、0、負。(值的秩評定)
- 允許比較與定量評估值之間的差。
- 區間標度屬性是數值的,中心趨勢度量中位數和眾數,還可以計算均值。
2)比例標度(ratio-scaled)屬性
- 特點
- 具有固有零點的數值屬性。(也就是該種屬性中會有固有的為 0 的值)
- 一個值是另一個的倍數(或比率)。
- 值是有序的。(可以計算差、均值、中位數、眾數)
- 例:度量重量、高度、速度和貨幣量(例如 100 元是 1 元的 100 倍)的屬性。
六、離散屬性與連續屬性
- 機器學習中的分類算法通常把屬性分為離散的和連續的。
1)離散屬性
- 特點:
- 具有有限個或無限個可數個數,可以用或不用整數表示。
- 例:hari_color、smoker、drimk_size都有有限個值,因此是離散的。
- 無限可數:如果一個屬性可能的值集合是無限的,但是可以建立一個與自然數一一對應,則該屬性是無限可數的。
- 例:customer_ID 是無限可數的。
2)連續屬性
- 如果屬性不是離散的,則它是連續的。
- 文獻中,術語“數值屬性”和“連續屬性”可以互換的使用。
- 實踐中,實數值用有限位數數字表示,連續屬性一般用浮點變量表示。