查看變量詳情（分布指標（偏度和峰度）、稀疏性、缺失形、相關性）

本文轉載自查看原文 2021-09-08 16:39 385 數據挖掘：R/ 查看變量詳情（分布指標（偏度和峰度）、稀疏性、缺失形、相關性）

1.1 變量概況

(1)可以通過attributes()函數給出數據集的屬性列表，其中包括變量名稱（$names），數據集格式（$class）一級列名（$row.names）三個部分，由此可以對數據集結構有一個整體的把握。

library("MASS")

attributes(Insurance)

(2)函數str()可以進一步查看數據集的內部結構，可以看到觀測樣本數，變量數，各變量的類型及取值情況。

str(Insurance)

(3)函數summary()可以更進一步查看變量情況，對於定性變量，會給出其頻數，對於定性變量會給出最小值（Min），一分位點（1st Qu），中位數（Median），均值（Mean），三分位點（3st Qu），最大值（Max）這6個指標。若均值比中位數高很多，則表明該變量可能存在極大的異常值。

1.2 變量詳情

（1）若想獲得更細節的變量情況，則可以考慮使用Hmisc包中的describe()函數來獲得，給出樣本總個數（n），缺失樣本數（missing），水平個數（unique），並列出每一個水平的取值，頻數，頻率。

library(Hmisc)

describe(Insurance[,1:3])

結果分析：District變量共有64條取值，無缺失值，且含有4個水平，分別為1，2，3，4，各水平的頻數都是16，頻率為25%。

（2）服務於金融的軟件包，其中包含一些基礎的統計、參數估計、假設檢驗等相關函數，basicStata()是一個用於計算時間序列數據基礎統計指標的函數，也可以用於一般數據集。

以Holders變量為例，輸出的指標包括觀測樣本數（nobs）、缺失值（NAs）、最大值、最值、1分位數、3分位數、均值、中位數、和、標准誤差均值（SE Mean）、95%的置信水平下均值的置信下限（LCL Mean）/置信上限（UCL Mean）、方差（Variance）、標准誤差（Stdev）、兩個分布指標----偏度（Skewnes）、峰度（Kurtosis）。

library(fBasics)

basicStats(Insurance$Holders)

結果分析：數據集共23359位，約2.3玩=萬投保人信息，且在具體的區域District、發動機排量Group、年齡段Age情況下，平均有365位投保人，對於該變量均值的真實值位於區間[209，521](置信下/上限)中，有95%的可信度。

1.2.1 分布指標

分布指標的偏度和峰值也可以使用timeDate軟件包中的skewness()、kurtosis()兩個函數分別計算得到，也是一個服務於金融工程領域的軟件包。

偏度是用於衡量數據的偏倚程度，也就是數據的對稱程度，若以一個正太分布為基准的指標，即正太分布為完全對稱分布，其偏度為0；當該指標取值在[-1，1]區間，則說明數據分布的對稱性較強，即不存在明顯的左偏或者右偏情況；當該指標絕對值大於1，即超出該區間，則認為數據存在顯著偏倚。且為正值時表示該數據的總體取值大於均值，即有右偏的趨勢。反之，負值表示左偏趨勢。峰度經常與偏度共同使用，用於衡量數據分布形態的陡緩程度，也可以說時集中與分散程度，若以一個正太分布為基准的指標，當其值為0，說明其集散程度與正太分布相同，又稱為標准峰度，當峰度大於0則表示該數據分布與正太分布相比較為陡峭，為尖頂峰度，當峰度小於0表示其與正太分布相比較為平坦，為平頂峰度。峰度的絕對值數值越大表示其分布形態的陡緩程度與正太分布的差異程度越大。