1.與數據相關的幾個基本概念:
個體:收集數據時所依據的對象。【數據庫中的關鍵字】
變量:對個體所感興趣的特征。【屬性】
觀察值:對某個體收集到的測量值的全體。【測量值表全體】
觀察值是對數據集中每個個體的各個方面進行測量所得的集合。因此它的個數總是等於個體的數量,每個個體的測量值個數等於變量的個數。數據總數=個體數*變量數。
2.對數據的測量尺度:
名義尺度:用於確認個體屬性的標簽或者名稱。
順序尺度:數據以名義數據顯示,但數據順序或等級之間的差異有意義。【如對於服務質量測量:優秀、良好、較差;對酒店的1-5星級的划分;班級中上成績排名】
區間尺度:數據具有順序數據所有的特征,並以相同的刻度或單位表示數值間的間隔。它總是數值型數據。【如學生的語文成績分數】
比率尺度:數據數據具有區間數據所有特性,且兩個數據的比值是有意義的,其測量尺度為比率尺度。
3.統計數據類型
在統計學中,統計數據主要可分為四種類型,分別是定類數據,定序數據,定距數據,定比變量。
1.定類數據(Nominal):名義級數據,數據的最低級,表示個體在屬性上的特征或類別上的不同變量,僅僅是一種標志,沒有序次關系。【例如, ”性別“,”男“編碼為1,”女“編碼為2。 】2.定序數據(Ordinal):數據的中間級,用數字表示個體在某個有序狀態中所處的位置,不能做四則運算。【例如,“受教育程度”,文盲半文盲=1,小學=2,初中=3,高中=4,大學=5,碩士研究生=6,博士及其以上=7。 】3.定距數據(Interval):具有間距特征的變量,有單位,沒有絕對零點,可以做加減運算,不能做乘除運算。統計中經常需要這種數據來時行分析。【例如,溫度。】4.定比變量(Ratio):數據的最高級,既有測量單位,也有絕對零點。【例如職工人數,身高。】
一般來說,數據的等級越高,應用范圍越廣泛,等級越低,應用范圍越受限。不同測度級別的數據,應用范圍不同。等級高的數據,可以兼有等級低的數據的功能,而等級低的數據,不能兼有等級高的數據的功能。
中國統計網中有一博文提到了如下分類:
1.按計量尺度分類分類數據:只能歸於某一類別的非數字型數據。【根據特征划成類。可以使用名義尺度或者順序尺度】——分類變量順序數據:只能歸於某一有序類別的非數字型數據。【百度百科:用來表示順序、等級的數據。如一等品、二等品;優、良、差;小學、初中、高中、大學;等等。 對這類數據,要反映平均水平,只能用中位數。(顯然眾數也可以)】數值型數據:按數字尺度測量的觀察值。——數據變量數值型數據可能是離散的也可能是連續的。如泊松分布描述的數據是離散的,正態分布等描述的數據是連續的。2.按收集方法分類觀測數據:通過調查和觀測而收集到的數據。實驗數據:在實驗中控制實驗對象而收集到的數據。3.按時間狀況分類截面數據:在相同或近似相同時間點上收集的數據。時間序列數據:在不同時間上收集到一段時間內的數據。