理解正態分布


理解正態分布

一、總結

一句話總結:

讓我們來看一個披薩外賣的例子。假設一家披薩餐廳的平均配送時間為30分鍾,標准偏差為5分鍾。【根據經驗法則,我們可以確定68%的交付時間在25-35分鍾(30 +/- 5)之間,95%在20-40分鍾(30 +/- 2*5)之間,99.7%在15-45分鍾(30 +/-3*5)之間。】

 

 

二、理解正態分布

轉自或參考:https://baijiahao.baidu.com/s?id=1664992535661542475&wfr=spider&for=pc

 

 

 

每個試圖進入強大的數據科學世界的人都會遇到正態分布。在這篇文章中,我將以一種非常清晰的方式解釋它到底是什么,我們如何解釋它,以及為什么它作為一個每個數據科學家都必須意識到的概念具有巨大的重要性。

什么是正態分布?

正態分布也被稱為高斯分布或鍾形曲線(因為它看起來像一個鍾),這是統計學中最重要的概率分布,就像我們在大自然中經常看到的那樣,它有點神奇。例如,身高、體重、血壓、測量誤差、智商得分等都服從正態分布。

還有一個跟它相關的,並且非常重要的概念,叫中心極限定理,這將在以后的文章中討論。

 

 

現在,參考上面的圖像,並了解一個正常變量的值是如何分布的。這是一個對稱分布,其中大多數觀測值聚集在具有最高發生概率的中心峰(均值/平均值)附近,並且當我們在兩個方向上都偏離中心峰時,我們看到曲線尾部出現值的可能性越來越小。此圖描繪了一個群體的智商水平,可以理解,智商水平非常低或智商水平很高的人很少見,並且大多數人都處於平均智商得分范圍內。

我們周圍的很多很多變量都可以用這個正態分布來描述。想想所有同事到達辦公室所需要的時間,只有少數人會住在5分鍾或2個多小時的距離內(尾部)。大多數人將在20分鍾-70分鍾的距離(即峰值附近的區域)。當你研究越來越多的正態分布的變量時,你會發現它無處不在。

正態分布的參數

正態分布總是以平均值為中心,而曲線的寬度則由標准差(SD)決定。

 

 

這是兩個正態分布,x軸上的高度單位是英寸,y軸上是特定高度對應的人數。

嬰兒的平均身高為20英寸(50cm),標准差為0.6英寸(1.5cm)。成年人的平均分布為70英寸(175cm),標准差為4英寸(10cm)了解正態分布標准差的意義在於,它遵循一個經驗法則,即大約95%的測量值落在均值附近的+/- 2倍個標准差之間。

推論:95%的人口落在平均值+/- 2*SD之間

95%的嬰兒身高在20 +/- 1.2英寸之間95%的成年人身高測量值在70 +/- 8英寸之間正態分布的第一個參數是均值

均值或平均值是正態分布的集中趨勢,它決定了曲線峰值的位置。平均值的變化導致曲線沿x軸水平移動。

正態分布的第二個參數是標准差SD

標准差是正態分布變異性的量度,它決定了曲線的寬度。SD值的變化導致曲線變得更窄或更寬,並對曲線的高度產生反比例的影響。

更緊的曲線(較小的寬度)->更高的高度更寬的曲線(更高的寬度)->更短的高度現在,你已經了解了正態分布曲線的所有基礎知識。讓我們繼續學習與之相關的其他重要信息。

 

 

所有正態分布的共同特征

它們都是對稱的。平均值=中位數根據經驗法則,我們可以確定正態分布曲線離均值標准差范圍內的數據百分比。通過一個示例,這一點將變得更加清楚。

 

 

讓我們來看一個披薩外賣的例子。假設一家披薩餐廳的平均配送時間為30分鍾,標准偏差為5分鍾。根據經驗法則,我們可以確定68%的交付時間在25-35分鍾(30 +/- 5)之間,95%在20-40分鍾(30 +/- 2*5)之間,99.7%在15-45分鍾(30 +/-3*5)之間。

當我們知道如何將統計應用於現實生活中的問題時,看到事情變得多么直觀了嗎?我的統計學家、數據科學家/工程師、ML/AI愛好者或正在閱讀這篇文章的那些好奇的家伙們,繼續前進吧!

在這篇文章的最后一部分,我們將學習正態分布的一個特例

標准正態分布:正態分布的特例

如前所述,正態分布根據參數值(平均值和標准差)有許多不同的形狀。標准正態分布是正態分布的一個特例,均值為0,標准差為1。這個分布也稱為Z分布。

標准正態分布上的值稱為標准分數或Z分數。標准分數表示某一特定觀測值高於或低於平均值的SD數。

例如,標准得分為1.5表示觀察到的結果比平均值高1.5個標准差。另一方面,負分數表示低於平均值的值。平均值的Z分數為0。

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM