當假設檢驗拒絕了實際上成立的零假設時,所犯的錯誤稱為第一類錯誤,其概率用α表示。
當假設檢驗接受實際上不成立的零假設時,所犯的錯誤稱為第二類錯誤,其概率用β表示。
第一類錯誤解釋:
比如,某公司生產的100台手機里有5台是次品,所以次品率就是5%。但質檢團隊事先不知道這個信息,於是他們需要通過假設檢驗來驗證。首先,質檢團隊假設次品率不超過5%,那么他們認為一次抽樣是抽不到次品的(統計學中小概率事件的定義:概率小於5%的事件被認為在一次試驗中不會發生)。然而,當他們隨機抽取一個手機來驗證假設時,由於里面確實存在次品,誰也無法保證絕對就抽不到次品。所以,如果現實中他們恰好抽中了一個次品(抽中的概率是5%),然后他們就會下決定說:“在只有5個次品的情況下,一次抽樣我們認為是抽不到次品的,但現在我們真實地就抽到了次品,於是,我們拒絕次品率不超過5%的假設,懷疑這100台手機里的次品超過5台。”很明顯,他們犯錯了,而犯錯的概率就是那5個次品所占的比例:在原假設為真的情況下,他們仍有5%的可能性抽中次品,所以犯錯的概率也就是5%。因為抽中次品我們就會拒絕原假設,拒絕原假設,我們就犯錯了(第一類錯誤:H0實際為真而拒絕H0),所以,此時犯錯的概率就等於抽中次品的概率。類似的,如果我們人為地規定低於5%的事件是小概率事件,在一次試驗中不會發生,那么我們就注定了會有5%的可能性犯錯,因為人為規定的那些小概率事件在現實中是可能發生的,而發生的概率就是我們規定的5%,即犯錯的概率便等於小概率事件發生的概率。
第二類錯誤解釋:
接下來,我們再來看看第二類錯誤及其概率的大小。仍然用上述例子進行說明,唯一變化的是現在100個手機中實際有10個次品,即同樣的H0假設(次品率不超過5%)現在變成假了。於是,質檢團隊仍先假設這100台手機中次品小於5個(H0),一次抽樣,他們獲得了一個正品,然后他們就說現在還不能拒絕H0,可以默認里面的次品數低於5個(統計學上不說接受H0)。同樣地,他們又犯錯了,因為實際上的次品有10個,即H0是假的,他們需要拒絕H0可他們沒有。那他們犯這個錯誤的概率是多大呢?90%。沒錯就是這么大,你可能會感到驚訝。但這其中的邏輯是,在這個檢驗中,他們要做出正確的判斷就需要拒絕H0,而拒絕H0需要他們一次抽樣就抽中次品,因為次品個數是10個,正品是90個,所以,只要他們抽中正品,他們就會犯錯,因而他們犯錯的概率就是抽中正品的概率,即90%。直覺上也是這樣。
兩類錯誤的聯系:
對於兩類錯誤的聯系,下面這張圖你可能並不陌生,相信在看完上文后能有助於理解。下圖中紅色陰影部分的面積為α,即第一類錯誤犯錯的概率;黑色的陰影部分的面積為β,即第二類錯誤犯錯的概率。在進行具體解釋前,讓我們先從一個現實生活中的例子說起。
統計學中認識的第一對概念就是總體與樣本,這里我想特別澄清一點的是把樣本想象成固定的會限制我們的思考。總體和樣本的關系是一對多的,理論上一個總體我們可以抽取無數個樣本量相同但本質上不同的樣本。比如我們想檢驗北京大學男生的平均身高是否為1.8m(H0:總體均數為1.8m),那么北京大學所有男生的身高數據就是我們這個案例的總體。之后我們從總體中隨機抽取100名男生測量身高,這100名男生的身高就是一個樣本。當然,我還可以獲得很多其他的樣本,特別注意,這里的樣本不是一個一個學生,而是一個由100個學生組成的集體。
在統計學上,我們通常會把樣本稱為樣本點,如果你結合樣本均數來理解就會很清楚為什么要加一個“點”字。首先,每一個樣本都會計算出一個樣本均數,每一個樣本均數其實都是X軸上的一個點,有的樣本均數離總體均數近,而有的離總體均數遠。當我們抽中的樣本計算出來的樣本均數離總體均數遠的時候,即兩者差異較大時,我們就會傾向拒絕兩者相等的假設。所以,即便實際上H0假設正確,數軸上依然會有一些點與總體均數的距離較遠,當這些點對應的樣本被我們抽中時,我們就會做出拒絕H0的決定,從而我們就會犯錯了,這便是第一類錯誤的發生邏輯。
那第二類錯誤怎么理解呢?要犯第二類錯誤,那么意味着H0(總體平均身高為1.8m)是假的,實際上可能是1.85m。這其中會出現一個比較繞的點是,由於H0和事實不一致,所以H0所代表的總體和實際研究的總體也不一樣。在本例中,一個是均數為1.8的總體(上圖中的虛線總體);另一個是均數為1.85的總體(上圖中藍色部分的總體)。我們用假設檢驗進行判斷時用的是第一個總體,即依據第一個總體的均數來計算檢驗統計量並判斷是否要拒絕原假設,因為我們假設所獲得的這個樣本是來自於第一個總體的。但我們計算犯錯概率時,用的是第二個實際總體,即我們這個樣本並不是來自第一個總體,而是來自第二個實際的總體,在這個實際的總體中,會有多少樣本點導致在前一步計算檢驗統計量時不拒絕H0。這一點理清之后,你可能就會豁然開朗。
類似剛才的思路,我們有可能在實際均數為1.85的總體中抽出一些樣本(上圖黑色陰影部分所代表),而通過這些樣本計算的樣本均數與1.8差異不大,從而讓我們不拒絕H0(因為這些樣本不處於拒絕域,即紅色陰影所代表的部分),進而導致第二類錯誤的發生。而計算錯誤發生概率大小,就是在實際1.85的總體中那些與1.8距離較近的樣本點所組成的集合所占的比例(上圖黑色陰影部分面積在實際總體所占的比例),正是這些集合的存在會讓我們不拒絕H0而犯錯。
通過上述說明,對照圖你可能就能理解,為什么我們會說減少第一類錯誤的發生概率就會增加第二類錯誤的概率,因為,第一類錯誤的概率是我們根據檢驗水准人為設定的,當我們把檢驗水准從0.05提高到0.01時,我們減少了圖中紅色陰影的面積,但增大了圖中黑色陰影的面積,該面積即為第二類錯誤發生概率。另一個常見的問題是為什么只有增加樣本量才能同時減少這兩類錯誤的犯錯概率,簡單理解,就是由於樣本量的增加會降低標准誤的大小(標准誤=S/根號N,樣本本量N越大,標准誤越小,反映在圖形中就是兩個總體(假設總體和實際總體)變得更“細瘦”,所以重合的部分越少,由此代表犯錯概率的圖形的面積也會變小。
鏈接:https://www.zhihu.com/question/20993864/answer/958223021
來源:知乎
假設檢驗中,為何要避免第一類錯誤,而不避免第二類錯誤?
假設現在有一批葯需要測試療效。
H0:這批葯沒效果
H1:這批葯有效果
α=H0真時拒絕H0,拒真錯誤。對應到現實里是,拒絕沒效果=有效果。我們認為一批葯有效果以后將給病人吃,但其實這批葯是沒效果的,那病人吃了以后就死了呀,這個α對應的是人生命的風險,是消費者風險。
β=H0錯時接受H0,取偽錯誤。接受無效,一批葯明明有效確認為它無效。這個充其量就是葯廠不會生產這種葯,但還有什么阿司匹林,阿莫西林其他的葯可以生產,威脅不到人的生命,是一種生產者風險。
生命高於金錢,所以在控制兩類錯誤時,我們優先控制typeI error,一般都是規定好的0.05,然后想辦法降低typeII error。
關於α和β,和第I和第II類錯誤的命名我覺得也是這樣的,因為人們覺得第I類錯誤比第II類錯誤更加重要,而希臘字母里α也排的比β前,越重要的東西越放在前面。
鏈接:https://www.zhihu.com/question/37437658/answer/332072770
來源:知乎