【Udacity】數據的差異性:值域、IQR、方差和標准差


一、值域(Range)

Range = Max - Min
受異常值(Outliers)影響

二、四分位差(IQR)

四分位距(interquartile range, IQR),又稱四分差。是描述統計學中的一種方法,以確定第三四分位數和第一四分位數的區別(即Q1~Q3 的差距)。

三、異常值(Outlier)

異常值的常用定義:Outlier < Q1 - 1.5IQR

 OR      > Q3 + 1.5IQR
  • 可視化——Box Plots(箱線圖) & Whisker(盒須圖)

  • IQR的不足
    值域和IQR都無法將所有數據考慮進來;
    完全不同的兩個數據集也可以有相同的IQR:Normal(正態分布)、Bimodel(雙峰分布)和Uniform distribution(均勻分布)

  • we need one number that decribes the spread data that takes all the data into account.(數據分布+考慮所有數據)

四、方差(variance)

  • 平均值的平方偏差-Means of squared deviations/average squared deviation

平方和本質——正方形面積

五、標准差(Standard Deviation)

正方形的邊長——方差的平方根

  • 標准差和正態分布圖

六、貝塞爾校正(Bessel's correction)

  • 通常,抽樣差異性<總體差異性(遺漏稀有值)
    ** n ——> n-1 **

七、樣本標准偏差

  • 區分總體標准差σ和樣本標准差s
    1.樣本標准差 估算大樣本集時使用小寫的s
    —— 有樣本,並需要估算總體標准差——>分母為n-1
    —— 有總體數據集——>分母為n


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM