在學完了幾個重要分布之后,緊接着的內容就是這幾個分布的使用,實際上這就是假設檢驗的過程
其中有一些概念: 分位點和分位數,p值,分布表,置信區間
因為是新概念, 我這種蒻蒻就是看得很不清楚,理解起來總是有點點模糊,很多書上講得也不怎么清楚,現在搞清楚
參考博客:
分位點和分位數,p值
理解: 分位數(Quantile),亦稱分位點,是指將一個隨機變量的概率分布范圍分為幾個等份的數值點,常用的有中位數(即二分位數)、四分位數、百分位數等。
其中分位數又有上分位數和下分位數之分
以一組離散隨機變量概率分布為例 :X:{1,2,3,4,5,7,8},總體為7個
二分位數就是4,意思是X有1/2=50%的可能小於或等於4,
同樣往上看,X有1/2=50%的可能大於4所以同時這也是上分位數,二分位數沒有上下之分
同理四分位數對應的概率是:1/4=25%,但是此時有上下之分,
X的上四分位數g就是X有25%的概率大於這個數g,25%*7=1.75,那怎么辦?
那我就要找一個數,確保X至少有25%的概率大於這個數,1.75取2,2/7》=0.27,取7,8,再往下是5
這里查過之后,發現其實存在一點爭議,就是在離散的情形里,上分位數取大於還是大於等於的問題,
什么時候取等,到底取不取等,或者需不需要乘百分比這個問題一直都有不同說法,
分位數取5,可以表示X至少有25%的概率大於5,或者,
還可以說取7,可以表示X至少有25%的概率大於等於7,
其中這個概率就是p值
由於p值常常不是整數,所以表示主要用的是為百分位數
總結一下:
在抽樣分布和概率的基礎上,以想象一個一個密度函數曲線
上分位點就是該點以上概率密度曲線與x軸的面積(概率)為α的點。
下分位點就是該點以下概率密度曲線與x軸的面積(概率)為α的點。
如標准正態分布的上α分位點:
設X~N(0,1),對於百任給的α,(0<α<1),
稱滿足P(X>Zα)= α的點Zα為標准正態分布的上α分位點。
理工類這邊的書用的最多的是下側分位點,有些數三的概率統計用的時上側分位點
現在再來看看定義
分位數:指的就是連續分布函數中的一個點,這個點對應概率p。若概率0<p<1,隨機變量X的概率分布的分位數Za,是指滿足條件p(X≤Za)=α的實數
通常寫作:
(分布類型為t,對應該分布類型的自由度為n)t (n)0.95(分位數要求 p 值)= g (某分位數的值)
表示對於自由度為n的t分布,p值為0.95的分位數為g,即:某隨機變量滿足自由度為n的t分布,有95%的可能比g小
在查表得時候一般過程是:
已知分布類型如:t,F,
還知道自由度和要求的百分數=5%,95%,97.5%等
然后找到對應百分數的百分位數=g
關於表格:
t分布的密度函數是關於y軸對稱的,因此對任實數a>0,P(t>a)=P(ta)=2P(t>a).
現在看到的t分布表制作有這樣兩種:
- 列出的是使P(t>T)=α的T的值,將T記作t(α)(自由度不寫了);
- 列出的是使P(|t|>T)=α的T的值,將T記作t(α)
在(1)表格中查到的t(α/2)與在(2)表格中查到的t(α)是同一個數,都是這個t分布的上α/2分位點。
一些套路
非標准分布的都可以化作標准正態分布后變形來找答案,
對於關於x軸對稱的分布,比如標准正態分布和t分布,
有 當同分布,百分位數互補(和為1)時,百分位數互為相反數,
查表找不到就這么做,
一般方式是知二求一
- 知道分布,知道自由度,分位數,求一個概率,或者概率范圍
- 知道分布,知道自由度,概率p值,求分位數,或者分位數范圍
- 知道分布,知道概率和分位數,求自由度,或者自由度范圍
由於需要求范圍,所以我們需要知道分布中變量概率,自由度和分位點的遞增遞減關系
標准正態分布特殊點:
數值分布在(μ—σ,μ+σ)中的概率為0.6826
數值分布在(μ—2σ,μ+2σ)中的概率為0.9544
數值分布在(μ—3σ,μ+3σ)中的概率為0.9974
-1.96~+1.96范圍內曲線下的面積等於0.9500,在-2.58~+2.58范圍內曲線下面積為0.9900。
卡方分布:
任何分位點都大於等於0,因為是平方和(一組獨立同分布於標准正態分布的樣本的)
卡方分布分位點關於n和p都是單調遞增的
t分布:
當固定百分數時,自由度越大,百分數越小,最終趨近於正態分布的值,
t分布分位點關於n遞減,關於p遞增
F分布:
F(n,m)關於n遞增,關於m遞減,關於p遞增