最近在學習統計學相關的知識,在閱讀《Head First 統計學》的過程中,遇到了標准差這個概念,當時理解的不是很透徹,就這樣略過閱讀下面的章節。
直到最近在學習PMP過程中看到了楊述老師對標准差概念的講解,雖然簡單,但是使我對標准差的理解一下子就提升了一大半,因此在這里我試着記錄下來,一來鞏固理解,二來測試一下自己是否真的理解到位了,畢竟,只有說的明白,才算是真的理解。
1. 標准差$\sigma$對實際生活有什么作用?
籃球教練在招收球員入隊的時候,需要有一系列的指標作為入隊標准;當兩個球員的身體素質等都差不多的時候,就很難抉擇該選擇誰入隊,這時候標准差就是一個非常好的參考;
同樣,我們在做兩個球星的差距的時候,標准差就能非常有效的描述差距的大小。
1.1 科比 v.s 易建聯
西格瑪標准差其實是衡量數據或概率分布的曲線的胖瘦。
西格瑪小的表示概率穩定。例如這里科比的$\sigma=3.7$表示他每場得30分的概率非常穩定,換句換說,無論觀眾和隊友,只要科比一上車,打錯了,一上場,大家心里都有數,這30分是基本到手了。
但是如果同樣在NBA打球的易建聯 $\sigma=9.2$的上車,情況就不那么穩定了,運氣好也能拿30分,運氣不好可能拿幾分都有。所以水平高低從標准差上一目了然。
2. 因此,標准差是什么
標准差是描述數據或概率分布的集中程度。標准差大小,數據/概率都離這個期望值不遠;反之,如果標准差大則表示數據/概率離期望值很遠,什么都有可能發生。
3. Q&A 問答環節
3.1 那么,用均值不也能體現兩個球員的差距嗎?
舉一個極端不穩定的情況,一個球員上場要么得60分,要么得0分,那么均值看起來是30分,和科比一樣高呢。但是這樣的球員你敢在總決賽那天送他上場嗎?你送他上場,他送你上天。
因此均值顯然沒有體現事情的全部真像,你正在需要知道的是變化幅度(Variance)。均值給出了平均數,而標准差給出了分散程度。
3.2 那么,標准差總是越小越好嗎?
不一定,如果你是找出每場發揮穩定的球員,標准差小就是你要找的人;或者是你正在生存機器零件,標准差小那么零件越一致。
如果你准備入職一家新公司准備大干一場,如果這家公司工資的標准差很小,表示你大干一場或者不干都差不多,你也許應該找一家標准差大的公司大干一場。
3.3 標准差和方差是什么關系
標准差的平方就是方差。由於在統計帶有負號的數據的時候,如果不用平方最后求出來的標准差可能為0,因此才產生了方差。具體兩者關系可以參考《Head First 統計》
3.4 最后,標准差的公式
就是方差的根號:
其中:x表示一組數據集內的每一個數據,u表示這組數據集的均值, n表示數據集內的個數。
又可以簡化成: