如果給出正態分布總體的均值和標准偏差,我們就能通過計算出小於或大於任何值的百分比,將該值與總體中剩余的值對比,那對於樣本呢,我們如何將總體中的特定樣本與其他樣本相比較?
□ 通過算出該樣本的均值
□ 通過算出總體中其他樣本的均值
□ 通過將該樣本的均值與其他樣本的均值進行對比
所有選項都正,之前我們已經了解到中心值可以描述一組數據,如果我們要對比樣本,我們可以對比該樣本的中心值具體來說即均值。
舉一個簡單的例子,模擬具有多個樣本的總體
假設你在拉斯維加斯賭博,玩的賭博游戲是擲四面體骰子,你需要擲兩次,然后取平均值,要贏的話,平均值必須至少為 3,你的兩次投擲結果平均值至少為 3 的概率是多少?
我們投擲骰子的話 會得到 1、2、3 或 4,均值是多少?
1+2+3+4=10,10/4= 2.5,所以均值是 2.5,用 μ 表示,這叫做期望值。雖然我們不會擲出 2.5,因為這是不可能的,但是 2.5 是總體的均值,如果我們從該總體中取出某個樣本,期望值約為 2.5。
提醒下,如果我們要贏得這場賭博游戲,我們的平均值就必須至少為 3,我們來看看投擲兩次骰子的話,所有可能的結果會是多少,可能是 1 和 2,均值則是 1.5;者可能是 1 和 1,均值則是 1;或者可能是 3 和 4,
均值則是 3.5;有各種可能性,這些類似於我們在總體中的樣本,在前面提到的三次投擲中,我們只贏了一次,因為只有一次的平均值等於或大於 3,們可以從該總體中選擇多少種可能的組合,即樣本量為 2 的情況。
我們可以獲得 16 個樣本量為 2 的樣本,可能是下面的任意組合,算出每個樣本的均值
樣本均值的均值是多少?也就是說,如果我們投擲四面體骰子兩次,平均結果預計會是多少?這就是樣本均值的均值。
如果我們將這些都相加的話 1+1.5+2+2.5…一直加到 4,得出樣本均值的均值是 2.5 我們用大寫的 M 表示。
現在請將樣本均值復制粘貼到Wolfram Alpha網站(http://www.wolframalpha.com/),然后點擊此圖標,它就會分析你在此處輸入的所有數據,在我們的示例中,即所有樣本量為 2 的所有可能樣本的均值。
我們來看看可視化均值頻率的直方圖,這張圖將樣本均值的分布可視化叫做抽樣分布。該抽樣分布的形狀會如何?
□ 均勻分布
□ 雙峰分布
□ 正態分布
□ 偏斜分布
是正態分布 這並不是巧合,從下圖可以看出,頻率最高的均值是 2.5,這個直方圖可能不太好理解,因為它是離散的,但是再去看看樣本均值,會發現有四個樣本的均值是 2.5,理想情況下 2.5 應該位於正中心位置,但是會發現樣本均值很難達到 1 或 4。
那么兩次投擲的平均值大於等於 3 的概率是多少?

可以看到有三個樣本量為 2 的樣本平均值為 3,兩個樣本量為 2 的樣本平均值為 3.5,一個樣本量為 2 的樣本平均值為 4,3+2+1=6,再除以總數即 16,得出概率為 6/16=0.375。
我們可以輕松地算出離散樣本的概率,例如這個離散總體中的離散樣本,但是在現實生活中,總體超大時該怎么辦?我們不可能計算出每個樣本量為 n 的樣本的均值,即使能夠算出,我們也不想去計算,即使總體大小只有 4,樣本量也達到了 16 個,如果總體大小是 3.5 億呢?現實中經常會這么大,我們已經發現樣本均值是正態分布的,我們知道所有這些樣本均值的均值是總體均值,注意,這里的總體均值是 2.5, 所有可能的樣本均值的均值也是 2.5,如果給出某個隨機樣本,我們算出它的均值,我們該如何判斷該均值位於這一樣本均值分布的何處?
□ 總體數量
□ 樣本均值分布的標准偏差
□ 可能的樣本的總數
我們需要知道該分布的均值和標准偏差。
如果總體大小為 3.5 億,我們該如何算出樣本均值分布的標准偏差?我們從已知的樣本示例信息着手,我們來計算下總體標准偏差 σ,然后計算出所有樣本均值的標准偏差,我們將其稱為 SE,請算出該總體的標准偏差及所有樣本均值的標准偏差,樣本量為 2。
我們已經算出總體參數和樣本均值分布的參數,你認為總體的標准偏差與樣本均值分布的標准偏差之間有聯系嗎?
總體標准偏差 σ 與所有樣本均值的標准偏差之比是多少?也就是說 σ/SE 等於多少?
1.118034/0.790569=1.414214
這個數值表示的是 2 的平方根,而 2 是我們的樣本量。
剛剛已經看到,總體標准偏差除以樣本均值分布(亦稱為抽樣分布)的標准偏差等於樣本量的平方根。
樣本均值分布的標准偏差 SE=σ/√n ̄。
對於均值分布,其中每個均值都是樣本量為 n 的均值,該分布的標准偏差就等於總體標准偏差除以平方根 n,這就叫做中心極限定理。
標准偏差等於總體標准偏差除以樣本量的平方根,我們一直都叫它 SE,因為它就是標准誤差。
再來看一個示例
Klout分數是唯一衡量你在互聯網上,主要是社交媒體上的影響力的數據,以 1 到 100 分的范圍為每個人在互聯網上的影響力進行打分,它是唯一可以用來衡量線上名聲的分數,即用來衡量影響力的分數,Klout 分數是根據
你在各種社交網絡上的數據計算的,包括 Twitter Facebook 和 LinkedIn 對於每種社交網絡,會收集大約 100 個數據信號 例如你的每條推文被轉發的數量,你在 Facebook 上的帖子獲贊的次數等等,會針對每個人考
慮 100 種數據信號,每天會對 4 億以上的用戶打分,Klout 分數遵循的是雙峰分布,有一些用戶會在峰值的這一側,分數在 40 到 60 之間,這些用戶會發布一些高質量的內容,還有一部分用戶在另一側,他們是這些內容
的消費者,如果繪制出這些分數分布圖,從這一側到這一側的用戶在每個分數區間內的數量,這是 0 分,這是 99 分 y 軸表示的是這些區間內的用戶數,你可以看到一個非常理想的雙峰分布,平均 Klout 分數要比中位數低
,因為相對來說,分數更低的用戶更多,他們拉低了平均值,對於這種分布,觀察中位數更合理,分數達到 40 分實際上已經很不錯了, 表明在社交媒體上很有影響力了。
我們首先分析下該數據,這將是我們到目前為止研究的規模最大的數據集,請打開 Klout 分數表格並計算均值和標准偏差,請將其當做總體而不是樣本。從網盤下載數據
http://pan.baidu.com/s/1bUpiou
下圖就是 Klout 數據的分布情況 可以看出是雙峰的,均值大概為 37.72
假設我們能夠取出所有樣本量為 35 的可能樣本,並計算每個樣本的均值,然后繪制出樣本均值的分布圖,該分布的均值會是多少?
均值應該和總體均值差不多,所以約為 37.72。
該分布的標准偏差是多少呢?

2.71 標准偏差就等於總體標准偏差除以 n 的平方根,n 是指每個樣本的樣本量,也就等於 16.04/√35 ̄ 約等於 2.71
假設我們查看了 35 位使用 Bieber Twitter 應用的用戶的 Klout 分數,每當 Justin Bieber 發了任何推文,該應用都會自動轉推,如果你不知道 tweet 是什么的話,介紹下 tweet 是人們在社交網站 Twitter 上發布的消息,Klout 分數在一定程度上依賴着人們在 Twitter 上的活動狀態,假設這些人的平均 Klout 分數是 40 分,對於其他樣本量為 35 的樣本的均值分布,該均值會位於何處?已經算出了該分布的標准偏差是 2.71,那么該均值會高出該分布的均值多少個標准偏差?

0.84 40-37.72/2.71=0.84,剛剛用抽樣分布的均值和標准偏差,算出了這個特定樣本的 z 值,注意,抽樣分布的標准偏差叫做標准誤差
隨機抽取一個樣本量為 35 均值至少為 40 的樣本的概率是多少?提示下,請使用 z 表格 https://s3.amazonaws.com/udacity-hosted-downloads/ZTable.jpg

0.2 我們知道了 z 值,所以可以通過 z 表格找到獲得任何小於該 z 值的值對應的概率,Z值為0.84時獲得均值小於 40 的樣本的概率是 0.7995,所以均值大於 40 的概率是 1-0.7995,結果大概只有 0.2,表明不太可能從整個 Klout 總體中隨機抽取一個樣本,均值會是 40。 如果這表明不是偶然選擇的情況,那么有可能是 Bieber Twitter 這款軟件在搗鬼,這款軟件會自動轉推 Justin Bieber 的推文,可能提高了這些人的 Klout 分數。