學習假設檢驗的基礎知識,包括如何設置假設檢驗。
統計學家規定了關於可能性或不可能性的三個常規級別:如果達到樣本均值的概率小於,0.05 即 5%,0.01 即 1% 或 0.001 即 0.1%,那么通常被視為不太可能發生。概率小於 0.1% 的情況是非常不可能的,這些叫做 α 水平。
現在做一道快速測試題來理解 α 水平是什么,我們重點討論下 α 水平 0.05 以下哪些說法是正確的?
以下哪些說法是正確的? □ 如果達到特定樣本均值的概率小於 α 水平, 它“不太可能”發生。 □ 如果樣本均值的 z 值大於 z* 那么“不太可能”發生。 □ 第三個選項是如果達到特定樣本均值的概率是“不太可能”,那么樣本均值位於橘色區域。 □ α 水平對應的是橘色區域。
AB α 水平是用來判斷某個事物可能或不可能發生的標准,如果概率小於 α 水平,則被視為不太可能, 如果樣本均值的 z 值大於 z*則表明選中該樣本均值的概率甚至更小,因此第二個選項也對,如果 z 值大於 z* 的樣本均值被視為不可能,但是如果落在黃色區域,則表明是可能發生的,因此第三個選項不對,最后一個選項 α 水平是 0.05,即 5%,對應的是綠色區域,不是橘色區域

我們規定,獲得特定樣本均值的概率小於 α 水平時,該均值落入的這個末端叫做臨界區。這個將臨界區與其他區域分開的 z 值,叫做 z 臨界值。
如果樣本均值的 z 值大於 z 臨界值,我們可以證明樣本統計數據與普通的或未經處理的總體不一樣。
假設這個紅色臨界區的概率是 0.05 即 5%,也就是說 α 水平是 0.05 那么這個 Z 臨界值是多少?

使用 Z 表,如果 5% 大於這個 Z 值,那么表明 95% 必須小於這個 Z 值,我們從表格中找到 0.95,對應的Z值大約是1.64或1.65
樣本均值概率小於 0.01 時被視為不太可能發生,那么表示這個臨界值的 Z 值是多少?
根據Z表格得出大約為2.33
樣本均值概率小於 0.001 時被視為不太可能發生,那么表示這個臨界值的 Z 值是多少?
3.08

我們將找到樣本均值,算出在樣本均值分布,即抽樣分布上的 z 值,然后看看這個均值位於何處,假設均值位於任何一個臨界區表明不太可能發生,
如果位於綠色區域即最小的臨界區,我們將報告最小的 α 水平,因為這表明我們的樣本統計數據與總體參數非常不同,因此證明很有可能采取了任何形式的人為處理措施,例如我們算出某些樣本量為 n 的樣本均值,並算出 z 值,我們減去 μ 然后除以抽樣分布的標准偏差,假設 z 值是 1.82,我們可以說這在比例小於 0.05 時具有統計顯著意義,因為如果看看這個 z 值會落在分布上的哪個位置,會發現它落在 1.65 和 2.32 之間,所以這個 z 值 1.82 位於這個紅色區域的某個位置,表明獲得這個樣本均值的概率小於 0.05,但是並不小於 0.01,所以它僅在比例小於 0.05 時具有統計顯著意義,注意 0.05 是 α 水平。
如果比較難以理解,可以將這一切想象成玩飛鏢,從地面到靶眼的標准高度,是 5 英尺、8 英寸,人要距離鏢靶 7 英尺 ,9/4 英寸,鏢靶制作者需要判斷鏢靶應該是多大,目標越大,甚至是牆的話,就越容易擊中,但也更有可能是偶然擊中的,目標越小越難擊中,但是一旦擊中,我們就更加確信我們不是偶然擊中的,所以靶眼應該足夠的大,使我們有可能擊中,但是又足夠的小,當我們擊中后,是因為我們的技術,必須存在一個平衡點,鏢靶上的這些目標就類似於臨界區每個區域的界限類似於不同的 α 水平,我們可以輕松地獲得位於這個區域的均值,但是如果均值位於 z 為 1.65 的區域之外,那么獲得該均值的概率小於 α 水平 0.05,不太可能是偶然發生的,如果均值在 z 值為 2.32 的區域之外,那么更不太可能發生,此時的概率是 0.01,非常不太可能是偶然發生的,如果均值在 z 值為 3.08 之外的區域那么就相當於擊中靶眼了。
再看一個例子
用一首歌來講解這個概念,並且我們想知道是否有助於學員學習知識並提高他們的參與度,假設在我唱歌后,觀看了這節課的 20 名學員報告的參與度均值為 7.13,注意他們是按照從 1 到 10 的范圍為自己的參與度打分,
然后我們算出這 20 名學員的平均分數結果是 7.13,我們暫時先不討論學習程度,首先,該樣本均值的 z 值應該是多少?提醒下,我們假設總體均值是 7.5,總體標准偏差是 0.64,當我們算出樣本均值的 z 值后,我們
將其與整個抽樣分布進行比較。
-2.59 我們的樣本由 20 名學員組成,樣本均值和總體均值相同,標准誤差即抽樣分布的標准偏差是總體標准偏差除以樣本量的平方根。結果約為 0.14 ,=(7.13-7.5)/0.14=-2.59

如果臨界區僅僅在這里 在均值上方,那么在這個黃色或橘色區域的任何樣本均值都將被視為可能發生,但是 z 值為 -2.59 的情況也能被視為可能發生嗎?我們將臨界區分成兩半,同樣我們先重點討論 α 水平 0.05,如果將 0.05 分成兩半,那么每端是 2.5%,如下圖所示,那么現在的 Z 臨界值就變了,這里的 Z 值應該是多少呢?

通過Z表格可以查出小於 2.5%(左邊) 對應的Z值是-1.96,因為這個分布是對稱的表明右邊的這個 Z 臨界值是正的 1.96。

現在臨界區既在A區,又在B區,而不是僅在一端,如果我們采用這個 α 水平並進行雙尾檢驗看看達到這個樣本均值是否有可能,我們可以怎么說?
對於樣本均值 x-bar = 7.13(z 值等於 - 2.59),我們可以得出什么結論? A.□ 不太可能獲得 7.13 的參與度均值 B.□ 參與度均值 7.13 不在臨界區內 C.□ 可以證明我唱的歌降低了學員的參與度 D.□ 參與度均值 7.13 在概率小於 0.05 時具有統計顯著意義
可以看到 -2.59 小於 α 水平是 0.05 時的臨界值 -1.96,因為它在A臨界區內,所以我們可以說不太可能達到 7.13 的參與度均值,但是這個參與度均值的確位於臨界區內,有證據表明我唱的歌降低了學員的參與度,或許我在上課時還是應該以講解為主,我們也可以說,參與度均值 7.13 在概率小於 0.05 時具有統計顯著意義,在兩個方向獲得距離均值這么遠的參與度分數的概率,小於 0.05 這基本上就是雙尾檢驗的含義。
我們現在來算算另外兩個 α 水平的雙尾檢驗的 Z 臨界值,α 水平為0.01和0.001時的Z值是多少
0.01對應的Z值是±2.57,0.001對應的Z值是±3.32。
這意味着什么?根據我們對可能或不可能的條件定義,如果我們獲取臨界區的樣本均值,根據單尾檢驗或是雙尾檢驗,那么我們可以判斷,我們很有可能沒有偶然地獲得這個樣本均值,注意在雙尾檢驗中,Z 臨界值和用來計算置信區間的 Z 值是相同的,這里只是將同一概念應用到了不同的情形,在進行統計檢驗時,我們會自己設定判斷條件,也就是說,我們將自己選擇一個 α 水平,然后規定如果獲得特定樣本均值的概率小於該 α 水平,那么就證明有效,通常我們會選擇α 水平 0.05,對於 α 水平 0.05,在單尾檢驗和雙尾檢驗這兩種情形下都存在兩種可能的結果,樣本均值要么位於臨界區之外,要么位於臨界區之內,我們將這兩種結果稱為零假設,並用 H0(零假設)或 Ha(對立假設)來表示,其他的表示方式可以是 H1,但我將用 Ha 表示對立假設。
零假設認為當前總體參數和在某種干預后出現的新總體參數之間沒有顯著差異,我們將表示為當前總體參數μ 等於干預后的總體參數。這里說的等於並非完全等於,我們只是說它倆並沒有顯著差異。
對立假設猜測存在顯著差異,當前總體均值將比干預后的總體均值小或大 或者二者之間不相等,我們不會預測干預的效果。
對於零假設,當我們猜測這兩個參數之間沒有顯著差異時,樣本均值將位於臨界區之外,在下圖白色區域,同時請注意,對於單尾檢驗,臨界區可能在左端 而不是右端,對立假設猜測存在顯著差異,表明樣本均值將位於臨界區的某個位置

我們無法證明零假設是對的,我們只能獲取證據來拒絕零假設,我們來看個簡單的示例
假設我們的零假設是大多數狗都有 4 條腿,我們將大多數定義為超過 50% 的狗,這個 50% 就類似於我們為做出決策而設定的α 水平類似,對立假設是指大多數狗都有不到 4 條腿,注意,這就類似於單尾檢驗,我們沒有猜
測大多數狗具有不同數量的腿,而不是 4 條,我們猜錯的是大多數狗有不到 4 條腿,所以存在判斷方向,現在假設抽出 10 只狗,發現它們都有 4 條腿,我們證明了零假設是對的,大多數狗都有 4 條腿嗎?
沒有 我們有證據表明大多數狗有 4 條腿,因為在我們的樣本中,所有的狗都有 4 條腿,但是我們沒有證明大多數狗有 4 條腿,在這種情形下,我們也沒有證明對立假設,但根據我們的樣本,我們也無法拒絕零假設
現在假設有 10 只狗的樣本,其中 6 只有 3 條腿,這樣能拒絕零假設,即大多數狗有 4 條腿嗎?
能夠 完全根據我們的樣本,我們發現大多數狗有不到 4 條腿,如果這就是樣本結果,那么我們就可以拒絕零假設,並傾向於對立假設。
我們再延伸下這些概念,將其應用到更加復雜的情形,
按照 1 到 10 分的范圍對你的參與度和學習程度打分,在分析該數據前請注意一點,這里並沒有清晰地定義參與度和學習程度,例如,如果某人只有時間看一節課程,然后就忙別的了,他們的參與度可能是 1,但並不能表明他
們不喜歡所觀看的內容,所以大家的打分結果存在各種主觀原因,這個示例很好地證明了置信區間並非在經過某種干預后分析數據的最佳方式,因為大家給的分數沒有實際的含義,但總體來說,我們可以判斷分數越高表明越好,
這時候假設檢驗就派上用場了,首先我們來熟悉下這些數據,下圖是顯示學員回答結果的直方圖,對於下面的這個示例,我們重點討論參與度,參與度的均值和標准偏差是多少?

均值是 7.47 標准偏差是 2.41
假設我們想知道一首關於課程內容的歌曲,對參與度有何影響,我們將設置一個假設檢驗,將當前的總體與經過這一處理或干預后我們預測的新總體進行對比。注意,在假設檢驗中,我們會有零假設和對立假設。零假設是指干預后的總體和當前總體參數之間沒有顯著差別;對立假設可以是以下三種情況,當前總體比干預后的小,比干預后的大或只是不同。
零假設是什么?
在課堂上唱歌會:
A.□ 讓學生參與的更高
B.□ 不會讓學生參與度更高
C.□ 改變高參與度學生的人數
D.□ 參與度不變
E.□ 讓學生參與度更低
BD
對立假設是什么?
在課堂上唱歌會:
A.□ 讓學生參與的更高
B.□ 不會讓學生參與度更高
C.□ 改變高參與度學生的人數
D.□ 參與度不變
E.□ 讓學生參與度更低
ACE

上圖中AB兩種對立假設是單尾檢驗,如果我們的樣本均值位於這里的臨界區,比當前總體均值顯著要高,那么我們猜測干預后的總體參數將比當前的高,類似地,如果我們的樣本均值位於小於當前總體參數的臨界區,則干預后的總體參數將比當前的低,最后,如果我們的樣本均值位於高於或低於當前總體參數的臨界區 那么可以得出結論:新的總體將顯著不同。
當我們要預測處理效應的方向時,我們選擇單尾檢驗,即方向性假設檢驗。例如,當我們預測這節課中描述概念的歌曲是否會提高或降低參與度;當我們不需要預測處理效應的方向時,我們會選擇雙尾檢驗,即非方向性檢驗。通常,我們選擇雙尾檢驗,因為它們更加保守,當它為真時,我們不太可能會拒絕零假設。
正如你之前看到的,我們可能對方向預測錯了,我們可能預測處理措施會提高參與度,實際上降低了參與度,在這種情況下,我們應該采取雙尾檢驗,如果我們只是采取正面的單尾檢驗,我們可能忽視了處理措施與我們的預期背道而馳的情形,該一般規則的特例是我們對比新的處理措施和既有的處理措施,在這種情形下,我們通常只關心新的處理措施是否比舊措施效果要好,我們不關心新措施是否更糟糕,這時候我們會使用單尾方向性檢驗。
假設我們不知道該歌曲對參與度的影響,可能會降低學員的參與度,也可能提高參與度,因此在這里寫上 μsong,因為歌曲是干預措施,我們將嘗試檢驗該參數是否將比已經算出的參數顯著不同,下一步是設定做出決策的判斷條
件,我們的決策是拒絕或無法拒絕零假設,我們必須選擇 α 水平,我們通常使用的是 0.05,表明對於雙尾檢驗,右邊是 2.5%,即 0.025,左端的比例也是 0.025,然后算出 Z 臨界值,最后算出樣本均值的 Z 值,看看它
是否位於臨界區,然后據此判斷是否拒絕零假設。 拒絕零假設的意思是什么? A.□ 樣本均值在臨界區域之內還是之外? B.□ 樣本均值的 Z 值小於還是大於 Z 臨界值? C.□ 得到樣本均值的概率小於還是大於 α 水平?
A.之內
B.大於
C.小於

現在假設有一個由 30 名學員組成的樣本,他們都可以觀看這節音樂形式的課程,后來他們報告的參與度均值是 8.3,這個值位於所有樣本量為 30 的樣本均值分布的哪個位置?要回答這道題,請注意這個正態分布表示的是樣
本均值分布,注意樣本均值的均值應該和總體均值相同, 標准偏差應該等於總體標准偏差除以平方根 n,Z 值是多少?
Z 值等於樣本均值減去總體均值再除以該分布的標准偏差,而標准偏差就等於標准誤差,算出結果約為 1.89
現在我們已經算出該樣本均值的 Z 值,那么在 α 水平 0.05 這里,對於雙尾檢驗,我們是拒絕零假設還是不能拒絕零假設呢?
我們的 z 值是 1.89,小於 z 值 1.96,因此,我們的樣本均值將位於上圖的白色區域,即某個位於總體均值周圍的95% 樣本均值之一,因此我們不能拒絕 H0,即零假設。沒有足夠的證據可以證明在推出音樂形式的課程后,新的總體參數將與現在的總體參數顯著不同,也就是說 根據我們的樣本,我們猜測參與度將保持不變。
但是,如果樣本均值還是 8.3,但是隨機樣本量是 50 呢?那么該樣本均值會落在這個樣本均值分布的哪個位置?同樣的,請算出 Z 值。
(8.3-7.47)/(2.41/√50 ̄)結果約為 2.44
現在針對 α 水平 0.05 提出同樣的問題,我們是拒絕零假設還是無法拒絕零假設?
這次 z 值是 2.44 大於 Z 臨界值,表明我們的樣本均值位於這里的紅色區域某個位置,樣本量為 50 的樣本達到該樣本均值的概率非常的小,小於 2.5%,這就是我們在雙尾檢驗中需要知道的信息,因此我們將拒絕零假設。我們有證據證明歌曲對參與度有影響,用公式表達為 P(表示概率)小於 0.05(我們的 α 水平),因為從樣本量為 50 的樣本中獲得該樣本均值的概率小於我們的 α 水平
