總體和分布
在一個統計問題中,我們把研究對象的全體稱為總體,其中每個成員稱為個體。
比如:
研究學齡前兒童這個總體,每個兒童就是一個個體,
每個個體都有很多側面,如身高、體重、血色素、性別等。
若我們進一步明確:研究對象是兒童的血色素(X)的大小,這樣一來每個個體(兒童)對應一個數。如果撤開實際背景,那么總體就是一堆數,這堆數中有的出現的機會大,有的出現的機會小,因此可以用一個概率分布來描述這個總體。
從這個意義上講,總體就是一個分布,其數量指標X就是服從這個分布的隨機變量。因此,常常用隨機變量的符號或分布的符號表示總體。比如我們說“從某總體中抽樣”和“從某分布中抽樣”是同一個意思。
總體還可以按個體數量分為有限總體和無限總體。
現實世界中大部分是有限總體。當個體個數很多以致不易數清時就把該總體看做無限總體。
有限總體將是抽樣調查和抽樣檢驗的研究對象。
樣本
樣本、樣品、樣本量(樣本容量)
研究總體分布及其特征數有如下兩種方法:
-
(1)普查
又稱全數檢查,即對總體中每個個體都進行檢查或觀察。- 因普查費用高、時間長,不常使用,破壞性檢查(如燈泡壽命試驗)更不會使用。
- 只有在少數重要場合才會使用普查。
- 如我國規定每十年進行一次人口普查,期間九年中每年進行一次人口抽樣調查。
-
(2)抽樣
即從總體抽取若干個體進行檢查或觀察,用所獲得的數據對總體進行統計推斷。
- 由於抽樣費用低、時間短,實際使用頻繁。
- 沒有抽樣就沒有統計學。
從總體中抽出的部分(多數場合是小部分)個體組成的集合稱為樣本
樣本中所含的個體稱為樣品
樣本中樣品個數稱為樣本量或樣本容量
由於抽樣前不知道哪個個體被抽中,也不知道被抽中的個體的測量或試驗結果,所以容量為 n 的樣本可看做 n 維隨機變量,用大寫字母表示容量為 n 的樣本
用小寫字母表示其觀察值,這就是我們常說的數據
一切可能觀察值的全體 \(\chi =\left \{ \left ( x_1,x_2,…,x_n \right ) \right \}\) 稱為n維樣本空間。
有時為了方便起見,不區分大小寫,樣本及其觀察值都用小寫字母\(x_1,x_2,…,x_n\)表示。當需要區分時會加以說明,也可從上下文中識別。
樣本來自總體,樣本必含總體信息。
機會大的(概率密度值大的)地方被抽中的樣品就多,而機會小的(概率密度值小的)地方被抽中的樣品就少;
分布分散,樣本也分散;分布集中,樣本也相對集中;分布有偏,樣本中多數樣品也偏向一側等。
樣本是分布的影子,見下圖。
抽樣方法
為了使所抽取的樣本能很好地反映總體,抽樣方法的確定很重要。
最理想的抽樣方法是簡單隨機抽樣,它滿足如下兩個要求:
-
(1)隨機性:即要求總體中每個個體都有同等的機會被選到樣本中。說明樣本中每個 \(X_i\) 的分布相同,均與總體 \(X\) 同分布。
-
(2)獨立性:樣本中每個個體的選取並不影響其他個體的選取。這意味着樣本中每個個體 \(X_i\) 是相互獨立的。
由簡單隨機抽樣得到的樣本稱為簡單隨機樣本,簡稱樣本。
此時 \((X_1,X_2,…,X_n)\) 可以看成是相互獨立且服從同一分布的隨機變量,簡稱獨立同分布樣本。
如何才能獲得簡單隨機樣本呢? 下面例子中介紹的幾種方法可供參考。
有一批燈泡600只,現要從中抽取6只做壽命試驗,如何從600只燈泡中抽取這6只燈泡,使所得樣本為簡單隨機樣本?
-
方案一:設計一個隨機試驗
先對這批燈泡從 000 ~ 599 編號。然后在600張紙質與大小相同的紙片上依次寫上 000 ~ 599,並把它們投入一個不透明的袋中,充分攪亂。最后不返回地抽出6張紙片,其上6個樣本號(462,078,519,312,167,103)所組成的樣本就是簡單隨機樣本。 -
方案二:利用隨機數表
用一大本隨機數表中的一頁(一般教材后面就有)。我們可以從該表任意位置開始讀數。仍把燈泡編號 000 ~ 599,設從該表的第一行第一列開始,以三列為一個數,從上到下讀出:537,633,358,634,982,026,645,850,585,358,039,626,084,...凡其值大於600的便跳過,如出現的數與前面重復也跳過,直到選出6個不超過600的不同數為止。現可將編號為537,358,026,585,039,084的6只燈泡取出測定其壽命。 -
方案三:可利用計算機產生6個 000 ~ 599 間的不同的隨機整數
譬如產生的隨機整數為80,568,341,107,57,166。取出這些編號所對應的燈泡進行試驗,測定其壽命。 -
方案四:用撲克牌設計一個隨機試驗
從一副撲克牌中剔去大小王及K,Q,J各四張,余下40張牌不分花色都當數字用,其中A代表1,10代表0,其他數字直接引用。在這些准備下,可從40張牌中進行有放回地抽取3張。每次抽取前洗牌要充分,抽取要隨機。約定第一張牌上的數字為個位數,第二張牌上的數字為十位數,第三張牌上的數字為百位數。若第三張牌上的數字為6~9,則作廢重抽,直到第三張牌上的數字不超過5為止。如此得到的三位數(如239)就是第一個樣本號,這樣重復5次,取得6個樣本號(如239,582,073,503,145,366),選擇對應編號的樣品進行壽命試驗。
這里介紹的多種抽樣方法說明簡單隨機樣本並不難獲得,困難在於排除“人為干擾”,不要“怕麻煩”和“想偷懶”。很多事例表明,統計推斷常在抽樣階段出問題。
從樣本認識總體的圖表方法
樣本含有總體信息,但樣本中的數據常顯得雜亂無章,需要對樣本進行整理和加工才能顯示隱藏在數據背后的規律。
對樣本進行整理與加工的方法有圖表法和構造統計量。
這里將介紹幾種常用的圖表法,如頻數頻率表和直方圖。
頻數頻率表
當樣本量 n 較大時,把樣本整理為分組樣本可得頻數頻率表,它可按觀察值大小顯示出樣本中數據的分布狀況。
下面通過一個例子來詳述整理過程:
光通量是燈泡亮度的質量特征。現有一批220伏25瓦白熾燈泡要測其光通量的分布,為此從中隨機抽取120只,測得其光通量如表1.1.5所示。
為從這組數據中挖掘出有用信息,常對數據進行分組,獲得頻數頻率表,即分組樣本,具體操作如下:
(1)找出這組數據的最大值 \(x_{max}\) 與最小值 \(x_{min}\),計算其差:
R 稱為極差,也就是這組數據所在的范圍。
在本例中 \(x_{max}\) = 226,\(x_{min}\) = 190,其極差為 R = 226 — 190 = 36。
(2)根據樣本量 n 確定組數 k 。
經驗表明,組數不宜過多,一般以5~20組較為適宜。可按表1.1.6選擇組數。
在本例中,n=120,擬分13組。
(3)確定各組端點 \(a_o < a_1 < …< a_x\),通常 \(a_o < x_{min}\),\(a_k > x_{max}\)。
分組可以等間隔,也可以不等間隔,但等間隔用得較多。
在等間隔分組時,組距 \(d \approx\frac{R}{k}\) 。
在本例中,取 \(a_0 = 189.5,d=36/13\approx3\) ,則有
(4)用唱票法統計落在每個區間 \((a_{i-1},a_i](i=1,2,… ,k)\) 中的頻數 \(n_i\) 與頻率 \(f_i = n_i/n\)。
把它們按序歸在一張表上就得到了頻數頻率表,見表1.1.7。
從該表可以看出樣本中的數據在每個小區間上的頻數 \(n_i\) 與頻率 \(f_i\) 的分布狀態。
大部分數據集中在 209 附近,201.5 ~ 216.5間含有 77.5% 的數據。
為了使這些信息直觀地表示出來,可在頻數頻率表的基礎上畫出直方圖。
直方圖
根據上面的頻數頻率表可以得出,如下直方圖:
在樣本量較大的場合,直方圖常是總體分布的影子。
如圖1.1.6上的直方圖中間高,兩邊低,左右基本對稱。這很可能是“白熾燈泡光通量常是正態分布”的影子。
又如圖1.1.7上的兩個直方圖是不對稱的,是有偏的,其相應的總體可能是偏態的。
其中一個是右偏分布(見圖1.1.7a);另一個是左偏分布(見圖1.1.7b)。
直方圖的優點
直方圖的優點是能把樣本中的數據用圖形表示出來。
直方圖的缺點
直方圖的缺點是不穩定,它依賴於分組,不同分組可能會得出不同的直方圖。所以從直方圖上可得總體分布的直觀印象,但認定總體分布還需用其他統計方法。
參考:
[1]數理統計學(2版)/茆詩松等編著.北京:中國人民大學出版社,2016.1