描述統計
- 如何收集數據
- 通過圖表形式對數據進行加工處理和可視化
- 通過概括與分析得出反映客觀現象的規律性數量特征
數據的可靠性(reliable)和有效性(valid)
- 可靠性:多次測量得到的數據是否一致
- 有效性:實際測量對象=希望測量對象
一個分類變量的特征和可視化
- 頻率表
性別 | 頻數(Count) | 頻率(Frequency) |
---|
-
條形圖
-
集中趨勢:一組觀測值向其中心集中的傾向和程度
- 眾數(mode)
- 中位數(median)
- 無序分類變量——(眾數)
- 有序分類變量——(眾數、中位數)
一個數值變量的特征和可視化
- 頻率表
- 數值變量的頻率表可以分割區間
- 頻率直方圖
- 縱軸為 \(頻率/區間值\) ——(保證條形覆蓋面積為1)
- 集中趨勢
- 均值(mean)
- 離散趨勢
- 極差/全距(range):最大值減最小值
- 分位數/分位點(quantile):把數據n等分
- 四分位距(IQR):\(75\%分位點-25\%分位點\)
- 方差(variance)、標准差(standard deviation)
- 等距數值變量——(極差/全距、分位數/分位點、IQR)
- 等比數值變量——(極差/全距、分位數/分位點、IQR、方差、標准差)
- 箱線圖(box plot)
分布的形狀
-
偏度(skewness)
- 左偏:\(均值<中位數\)
- 對稱:\(均值=中位數\)
- 右偏:\(均值>中位數\)
-
形態(modality)
- 單峰(unimodal)
- 雙峰(bimodal)
- 多峰(multimodal)
-
峰度(kurtosis)
- 峰尖、尾平、聚攏程度高
- 扁平、聚攏程度低
變量間的關系
兩個分類變量的關系
- 關聯表(contingency table)
- 分段條形圖
- 相對頻率分段條形圖
散點圖(scatter plot)
- 方向、形狀、強度、極端值
一個數值變量和一個分類變量的關系
- 並排箱圖(side-by-side box plot)
極端值和缺失值
極端值/異常值(outliers)
-
\(Q1:25\%分位點;Q3:75\%分位點\)
-
小於\(Q1-1.5IQR\) 或 大於 \(Q3+1.5IQR\) 的值為疑似極端值
-
小於\(Q1-3IQR\) 或 大於 \(Q3+3IQR\) 的值為極端值
-
均值受到極端值影響較大;中位數、眾數受到極端值影響較小
-
極差、標准差受到極端值的影響較大;IQR受到極端值的影響較小
-
如何處理極端值
- 測量或記錄錯誤,直接丟棄
- 不明原因,具體分析或選擇受影響較小的指標進行分析
- 可以對比保留和丟棄極端值對結果的影響來判斷結果是否受到極端值的影響
缺失值
-
如何處理缺失值
-
缺失值觀測記錄少,丟棄或使用均值、中位數、眾數、最大值等替代
-
缺失值觀測記錄多,具體分析
-