寫在前面:
高考復習筆記

| 目錄
|
定義

| 正態分布(/常態分布/高斯分布)是一個非常常見的連續概率分布,是連續隨機變量概率分布的一種,自然界、人類社會、心理和教育中大量現象均按正態形式分布,例如能力的高低,學生成績的好壞等都屬於正態分布。它隨隨機變量的平均數、標准差的大小與單位不同而有不同的分布形態 正態分布在數學、物理及工程等領域都非常重要的概率分布,在統計學的許多方面有着重大的影響力
正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鍾形,因此人們又經常稱之為鍾形曲線 正態分布曲線有以下性質: 集中性:正態曲線的高峰位於正中央,即均數所在的位置 對稱性:正態曲線以均數為中心,左右對稱,曲線兩端永遠不與橫軸相交 均勻變動性:正態曲線由均數所在處開始,分別向左右兩側逐漸均勻下降 曲線與橫軸間的面積總等於1,相當於概率密度函數的函數從正無窮到負無窮積分的概率為1。即頻率的總和為100% ——bia度百科 |
歷史
正態分布最早是De Moivre在1734年發表的一篇關於二項分布文章中提出的,當二項隨機變量的位置參數n很大及形狀參數p為1/2時,則所推導出二項分布的近似分布函數就是正態分布。Laplace在1812年發表的《分析概率論》中對De Moivre的結論作了擴展到二項分布的位置參數為n及形狀參數為1>p>0時。
Laplace在誤差分析試驗中使用了正態分布。Legendre於1805年引入最小二乘法這一重要方法;而Gauss則宣稱他早在1794年就使用了該方法,並通過假設誤差服從正態分布給出了嚴格的證明。
“鍾形曲線”這個名字可以追溯到Jouffret他在1872年首次提出這個術語"鍾形曲面",用來指代二元正態分布。正態分布這個名字還被Charles S. Peirce、Francis Galton、Wilhelm Lexis在1875分別獨立地使用。這個術語是不幸的,因為它反映和鼓勵了一種謬誤,即很多概率分布都是正態的。
這個分布被稱為“Normal”或者“Gauss”正好是Stigler名字由來法則的一個例子,這個法則說“沒有科學發現是以它最初的發現者命名的”。
——https://blog.csdn.net/hhaowang/java/article/details/83898881
分類
一維正態分布
X為隨機變量,位置參數μ(期望值),尺度參數σ(標准差)

則其概率密度函數為

注:exp意為以e為底的指數函數
二維正態分布
X1、X2為隨機變量,位置參數μ1、μ2(期望值),尺度參數σ1、σ2(標准差),結合緊密程度參數ρ

則其概率密度函數為

標准正態分布
標准正態分布是正態分布的一種,其期望值和標准差都是固定的,期望值為0,標准差為1
即μ=0,σ=1時:

則其概率密度函數為

對數正態分布
對數正態分布是指一個隨機變量的對數服從正態分布,則該隨機變量服從對數正態分布
如果數據是指數型發展的相乘(如細胞分裂后細胞個數)而不是相加,那么數據本身的對數服從正態分布,數據本身服從對數正態分布
對數正態分布從短期來看,與正態分布非常接近。但長期來看,對數正態分布向上分布的數值更多一些
性質
每個人都相信它(正態分布):實驗工作者認為它是一個數學定理,數學研究者認為他是一個經驗公式。
——Gabriel Lippmann
正態分布的前提
在適當的條件下,大量相互獨立隨機變量的均值經適當標准化后依分布收斂於正態分布
其中有三個要素:①獨立②隨機③相加
參數意義
μ是正態分布的位置參數,描述正態分布的集中趨勢位置
σ描述正態分布資料數據分布的離散程度,σ越大,數據分布越分散,σ越小,數據分布越集中
ρ是描述二維正態分布兩隨機變量結合緊密程度的參數,從而確定變量的聯合分布,不同的ρ對應不同的二維正態分布
曲線特點
正態曲線下:
橫軸區間(μ-σ, μ+σ)內的面積為68.268949%。P{|X-μ|<σ} = 0.6827
橫軸區間(μ-2σ, μ+2σ)內的面積為95.449974%。P{|X-μ|<2σ} = 0.9545
橫軸區間(μ-3σ, μ+3σ)內的面積為99.730020%。P{|X-μ|<3σ} = 0.9973
由於“小概率事件”和假設檢驗的基本思想 “小概率事件”通常指發生的概率小於5%的事件,認為在一次試驗中該事件是幾乎不可能發生的。由此可見X落在(μ-3σ, μ+3σ)以外的概率小於千分之三,在實際問題中常認為相應的事件是不會發生的,基本上可以把區間(μ-3σ, μ+3σ)看作是隨機變量X實際可能的取值區間,這稱之為正態分布的“3σ”原則
其他
為什么有很多數據不是正態分布?
在醫學研究中很多分布就不是正態分布,對實施了前列腺癌症治療的病人進行前列腺特異性抗原的檢測,檢測結果的分布不是正態分布:

這里可能有兩個原因導致了這一現象:
首先,樣本取自實施了前列腺癌症治療的病人,這些病人往往有各種各樣的疾病,並不是全體人類樣本,也就是說不夠隨機,所以結果很可能會偏向某一邊。
其次,癌症並非是相加,癌細胞的分裂更像是乘法。數學中,可以通過對數來把乘法變為加法,對之前的數據取自然對數,結果就接近於正態分布了(這就是對數正態分布):

看上去還有點偏向左邊,或許是因為采樣不是取自全體人類,導致隨機性不夠。
以上數據及圖片來自於《What is a p-value anyway? 34 Stories to Help You Actually Understand Statistics》。
——知乎 馬同學
