最近處理數據時,經常用到Z-score處理方法,所以把自己了解到的知識匯集在此,對自己也是個提升,希望對別人也有所幫助。
(1)Z-score定義
由於Z-score的數據分布滿足“正態分布”(N(0,1)),而“正態分布”又被稱為“Z-分布”,所以該方法被稱為“Z-score”。
Z-score是用於做數據規范化處理的一種方法。
Z-score又稱:零-均值規范化、standardscore、Z-value。
(2)Z-score公式
Z-score的計算公式如下:
(注:本圖轉載自wikipedia)
其中x是原始數據,u是全部數據的均值,分母為標准方差。
(3)Z-score分布
Z-score的分布如下圖所示:
(注:本圖轉載自wikipedia)
(4)Z-score物理意義
Z-score表示原始數據偏離均值的距離長短,而該距離度量的標准是標准方差。
Z-score大於零表示該數據大於均值。
Z-score小於零表示該數據小於均值。
Z-score等於零表示該數據等於均值。
Z-score等於“1”表示該數據比均值大一個標准方差。
Z-score等於“-1”表示該數據比均值小一個標准方差。
如果統計數據量足夠多,Z-score數據分布滿足,68%的數據分布在“-1”與“1”之間,95%的數據分布在“-2”與“2”之間,99%的數據分布在“-3”與“3之間”。可以通過此對你的數據做一定的驗證。相見上面的Z-score數據分布圖。
(5)Z-score應用
Z-score可用於數據分布過於凌亂,無法判斷最大值與最小值,或者數據中存在過多的奇異點,可以用Z-score方法對數據做規范化處理。
其實Z-score也是一種數據歸一化處理的一種方法。
轉自:http://blog.sina.com.cn/s/blog_a89e19440101eeuo.html
本文參考如下鏈接:
http://en.wikipedia.org/wiki/Standard_score
http://stattrek.com/statistics/dictionary.aspx?definition=z_score