統計學中P值的理解


一、p值含義理解

P值的含義:原假設為真時,出現偏離原假設值的觀測值以及比觀測值更極端的值的概率,說白了P值是個概率值。

通俗理解:在假設原假設(H0)正確時,出現現狀或比現狀更差的情況的概率。

p值是Fisher先提出來的“顯著性檢驗”理論體系中的概念,假設檢驗之所以可行, 其理論背景是小概率理論,小概率事件在一次試驗中幾乎是不可能發生的,但是它一旦發生,我們就有理由拒絕原假設;反之,小概率時間沒有發生,則認為原假設是合理的。通常步驟如下:

1. 有一個命題,稱之為”零假設“(null hypothesis)H0;
2. 找到一個統計量Z,可以計算Z的統計分布;
3. 一次試驗結果可以計算得到一個確切的Z值(Z0),在H0成立的情況下,出現比Z0更極端情況的概率值記作p值;
4. 如果p很小,則可以作為”零假設並不成立“的有力證據。
 
顯著性水平是原假設為真時拒絕原假設的概率,也即上述所說的小概率的界限,常取值0.05,001.在顯著性水平α下,P值規則為:P≤α,則拒絕H0;如果P>α,則不拒絕原假設。
我們通常把1-α稱為置信水平,即對推斷結果的把握度、可靠性。
 
二、舉例解釋
 假設檢驗一枚硬幣是否是公正的,即出現正負面的概率是一樣的。
假設:硬幣是公平的
檢驗:扔1000次硬幣來測試假設是否正確。
扔1000次硬幣用二項分布來計算很麻煩,根據中心極限定理,我們知道,可以用正態分布來近似,比如,我扔了1000次,得到了530次正面,用正態分布來計算就比較簡單。
對於正態分布,沒辦法計算某個點的概率(連續分布單點概率=0),只能取區間來獲得概率, 那這個時候取哪個區間合適呢?這就用到了上面定義的那句話了“出現現狀或比現狀更差的情況的概率”,如下:
如果顯著水平為0.05,這個時候p-value=0.03<0.05,則拒絕原假設。
 
三、線性回歸中的P值如何理解
       線性回歸中的原假設:兩個變量之間的線性關系是不顯著的。
        當給定顯著水平α時,如果檢驗結果的p值小於α,則拒絕原假設,說明模型反映的線性關系顯著,即該變量很有用;反之不拒絕原假設,即該變量與目標變量確實沒有多少線性關系,可以剔除該變量。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM