統計學中的變量指的是研究對象的特征,我們有時也稱為屬性,例如人的身高、性別等。
每個變量都有變量的值和變量的類型。我們按照變量的類型對變量進行划分。
統計學中的變量(variables)大致可以分為數值變量(numrical)和分類變量(categorical)。
數值型變量是值可以取一些列的數,這些值對於 加法、減法、求平均值等操作是有意義的。而分類變量對於上述的操作是沒有意義的。
數值變量又可以分為下面兩類:
離散型變量(discrete):值只能用自然數或整數單位計算,其數值是間斷的,相鄰兩個數值之間不再有其他數值,這種變量的取值一般使用計數方法取得。
連續型變量(continuous):在一定區間內可以任意取值,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值。如身高、繩子的長度等。
和離散型變量相比,連續型變量有“真零點”的概念,所以可以進行乘除操作。
分類變量又可以分為下面兩類:
有序分類變量(ordinal):描述事物等級或順序,變量值可以是數值型或字符型,可以進而比較優劣,如喜歡的程度:很喜歡、一般、不喜歡 。
無序分類變量(nominal):取值之間沒有順序差別,僅做分類,又可分為二分類變量和多分類變量 二分類變量是指將全部數據分成兩個類別,如男、女,對、錯,陰、陽等,二分類變量是一種特殊的分類變量,有其特有的分析方法。 多分類變量是指兩個以上類別,如血型分為A、B、AB、O。
有序分類變量和無需分類變量的區別是:前者對於“比較”操作是有意義的,而后者對於“比較”操作是沒有意義的。
這四種數據的等級從低到高依次為:無序分類變量(nominal) <有序分類變量(ordinal)< 離散型數值變量(discrete)< 連續型數值變量(continuous)。
下面的一張圖描述了它們之間的關系: