數據挖掘：數據（數據對象與屬性類型） - 碼上快樂

相關內容簡體繁體

數據挖掘：數據（數據對象與屬性類型）

本文轉載自查看原文 2018-12-07 00:32 4676 數據挖掘

一、概述

現實中的數據一般有噪聲、數量龐大並且可能來自異種數據源。
數據集由數據對象組成，一個數據對象代表一個實體。
數據對象：又稱樣本、實例、數據點或對象。
數據對象以數據元組的形式存放在數據庫中，數據庫的行對應於數據對象，列對應於屬性。
屬性是一個數據字段，表示數據對象的特征，在文獻中，屬性、維度（dimension）、特征（feature）、變量（variance）可以互換的使用。
“維”，一般用在數據倉庫中。
“特征”，一般用在機器學習中。
“變量”，一般用在統計學中。
一個屬性的類型由該屬性可能具有的值的集合決定，可以是標稱的、二元的、序數的、數值的。

二、標稱屬性（nominal attribute）

　1）特點

標稱屬性的值是一些符號或事物的名稱。
每個值代表某種類別、編碼、狀態，因此標稱屬性又被看做是分類的（categorical）。
標稱屬性的值不具有有意義的序，而且不是定量的。（也就是說，給定一個對象集，找出這種屬性的均值沒有意義）

　2）其它

這些值不必具有有意義的序，在計算機科學中，這些值也被看做是枚舉的（enumeration）。
盡管標稱屬性的值是一些符號或“事物的名稱”，但也可以用數表示這些符號或名稱，如 hari_color，可以用 0 表示黑色，1 表示黃色。
但一種屬性中最長出現的值，稱為眾數（mode），是一種中心趨勢度量。

　　# 例：hari_color（頭發顏色）、marital_status（婚姻狀況）、occupation（職業），都是標稱屬性，表示對象的特征。

三、二元屬性（binary attitute）

　1）特點

二元屬性是一種標稱屬性，只有兩個狀態：0 或 1，其中 0 通常表示該屬性不出現，1 表示出現。
二元屬性又稱布爾屬性，如果兩種狀態對應的是 true 和 false。

　2）其它

對稱的二元屬性：如果兩種狀態具有同等價值，並且攜帶相同權重，如表示性別，則 0 和 1 分別表示男性或女性沒有影響。
非對稱的二元屬性：兩種狀態的結果不是同等重要的，如 HIV 患者和不是 HIV 患者，為了方便計，將用 1 對最重要的結果（通常是稀有的）編碼（如，HIV 患者），而另一個用 0 編碼。

四、序數屬性（ordinal attribute）

　1）特點

屬性對應的可能的值之間具有有意義的序或秩評定（ranking），但是相繼值之間的查是未知的。（也就是對應的值有先后次序）

　2）其它

例：drink_size，表示飲料杯的大小：小、中、大，這些值具有有意義的先后次序。
序數屬性可以通過把數值量的值域划分成有限個有序類別（如，0-很不滿意、1-不滿意、2-中性、3-滿意、4-很滿意），把數值屬性離散化而得到。
可以用眾數和中位數表示序數屬性的中性趨勢，但不能定義均值。
標稱、二元和序數屬性都是定性的，即，它們描述對象的特征，而不給出實際大小或數值。

五、數值屬性（numeric attribute）

特點

是定量的可度量的量，用整數或實數表示。
可以是區間標度的或比率標度的。

　1）區間標度（interval-scaled）屬性

例：temperature（溫度）屬性，一般表示：10℃~15℃。
特點：

用相等的單位尺度度量，區間屬性的值有序，可以為正、0、負。（值的秩評定）
允許比較與定量評估值之間的差。
區間標度屬性是數值的，中心趨勢度量中位數和眾數，還可以計算均值。

　2）比例標度（ratio-scaled）屬性

特點

具有固有零點的數值屬性。（也就是該種屬性中會有固有的為 0 的值）
一個值是另一個的倍數（或比率）。
值是有序的。（可以計算差、均值、中位數、眾數）

例：度量重量、高度、速度和貨幣量（例如 100 元是 1 元的 100 倍）的屬性。

六、離散屬性與連續屬性

機器學習中的分類算法通常把屬性分為離散的和連續的。

　1）離散屬性

特點：

具有有限個或無限個可數個數，可以用或不用整數表示。
例：hari_color、smoker、drimk_size都有有限個值，因此是離散的。

無限可數：如果一個屬性可能的值集合是無限的，但是可以建立一個與自然數一一對應，則該屬性是無限可數的。
例：customer_ID 是無限可數的。

　2）連續屬性

如果屬性不是離散的，則它是連續的。
文獻中，術語“數值屬性”和“連續屬性”可以互換的使用。
實踐中，實數值用有限位數數字表示，連續屬性一般用浮點變量表示。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據挖掘中基本概念--數據類型的屬性與度量什么是教育數據挖掘？數據挖掘介紹數據挖掘面試數據挖掘-基本流程神奇的數據挖掘數據挖掘入門數據挖掘模型 Python數據挖掘數據挖掘基本流程

粵ICP備18138465號 © 2018-2025 CODEPRJ.COM