一、值域(Range)
Range = Max - Min
受異常值(Outliers)影響
二、四分位差(IQR)
四分位距(interquartile range, IQR),又稱四分差。是描述統計學中的一種方法,以確定第三四分位數和第一四分位數的區別(即Q1~Q3 的差距)。
三、異常值(Outlier)
異常值的常用定義:Outlier < Q1 - 1.5IQR
OR > Q3 + 1.5IQR
- 可視化——Box Plots(箱線圖) & Whisker(盒須圖)
-
IQR的不足
值域和IQR都無法將所有數據考慮進來;
完全不同的兩個數據集也可以有相同的IQR:Normal(正態分布)、Bimodel(雙峰分布)和Uniform distribution(均勻分布) -
we need one number that decribes the spread data that takes all the data into account.(數據分布+考慮所有數據)
四、方差(variance)
- 平均值的平方偏差-Means of squared deviations/average squared deviation
平方和本質——正方形面積
五、標准差(Standard Deviation)
正方形的邊長——方差的平方根
- 標准差和正態分布圖
六、貝塞爾校正(Bessel's correction)
- 通常,抽樣差異性<總體差異性(遺漏稀有值)
** n ——> n-1 **
七、樣本標准偏差
- 區分總體標准差σ和樣本標准差s
1.樣本標准差 估算大樣本集時使用小寫的s
—— 有樣本,並需要估算總體標准差——>分母為n-1
—— 有總體數據集——>分母為n