圖表可以把樣本中的數據用圖形表達出來,很直觀形象,但是,缺點有很大,例如,直方圖的圖像依賴分組,不同的分組,導致不一樣的圖像。
因此,除統計圖表外,對樣本進行整理加工的另一種有效方法是構造樣本函數
它可以把分散在樣本中的總體信息按人們的需要(某種統計思想)集中在一個函數上,使該函數值能反映總體某方面的信息。這樣的樣本函數在統計學中稱為 統計量。
統計量定義
不含任何未知參數的樣本函數稱為統計量。
樣本\((X_1,X_2,…,X_n)\)是 n 維隨機變量,因此,作為樣本函數的統計量,也是隨機變量。
這里“不含任何未知參數”是要求樣本函數中除樣本外不含任何知成分。
例如:
樣本中各數據的算術平均數稱為樣本均值,記為:
樣本方差,記為:
樣本標准差,記為:
這是較為簡單的樣本函數,又不含未知參數,故是統計量。
因為簡單,故使用較為頻繁。但其統計思想較為深刻,因為平均可以消除很多隨機干擾。
譬如,某市無人售票的公共汽車實行單一票價:2元/人次。幾年來,乘客與公交公司都很滿意,都認為“公平”。這里的公平只是平均來說才存在的,並不是存在於每次乘車。因此單一票價是依據以往多級票價的樣本均值而作出的。
又如降壓葯的療效是根據一組高血壓病人服用此種降壓葯后(如一周后)平均降壓多少而確定的,不是僅看一兩個人降壓多少而定的。因為人群中個體間的差異很大,且這種差異帶有隨機性,時大時小,時正時負,以不可測的隨機方式呈現在我們面前,所以從個體去認識總體常會出現偏差。從樣本認識總體可減少此種偏差,如樣本均值可以抵消大部分偏差,出現較為穩定的值,參與平均的個體越多,平均數的穩定性越好。葯檢部門就是根據平均療效來核准某種葯物是否可以上市出售的。
有段時間減肥葯的廣告很多。“××明星吃了我們的減肥葯,十天體重減了3公斤”,“×××老干部吃了我們的減肥葯,一個月減少10公斤體重”,“快來買吧,立即打電話,價格還可優惠”……你相信這些廣告嗎?由於制造商拿不出有說服力的樣本均值(100位肥胖的人服用了你的減肥葯,一個月內平均可減少體重多少公斤),而企求名人效應來推銷它的減肥葯,只能用極其罕見的個體數據來做廣告,欺騙缺乏平均數等統計知識的人群。在這個充滿隨機現象的現實世界里,平均數比個體數據更具說服力。
估計量
在對總體分布作出假定的情況下,從樣本對總體的某些特征作出一些推理,稱為統計推斷。
費希爾(R.A.Fisher,1890—1962)把統計推斷歸為如下三大類:
- 抽樣分布〈精確的與近似的);
- 參數估計(點估計與區間估計);
- 假設檢驗(參數檢驗與非參數檢驗)。
缺少統計量,上面這三個統計推斷就很難進行
定義:
用於估計未知參數的統計量稱為 點估計(量),或簡稱為 估計(量)。
參數 \(\theta\) 的估計量常用 \(\widehat{\theta} = \widehat{\theta} (x_1,x_2,...x_n)\)表示,參數 \(\theta\) 的可能取值范圍稱為參數空間,記為 \(\Theta =\left \{ {\theta } \right \}\)
這里的參數包括:分布中含有的未知參數;分布中的期望、方差、標准差、分位數等特征數;某件事的概率等。
評價估計量的優劣
一個參數的估計量常不止一個。常用的評價標准有多個,如無偏性、有效性、均方誤差最小與相合性
無偏性
設\(\widehat{\theta} = \widehat{\theta} (x_1,x_2,...x_n)\)是參數 \(\theta\) 的一個估計,若對於參數空間 \(\Theta =\left \{ {\theta } \right \}\) 中的任一個\(\theta\) 都有
則稱\(\widehat{\theta}\)為\(\theta\)的無偏估計,否則稱為\(\theta\)的有偏估計。
當估計\(\widehat{\theta}\)隨着樣本量 n 的增加而逐漸趨於其真值\(\theta\),這時若記\(\widehat{\theta}\)=\(\widehat{\theta}_n\),則有
則稱\(\widehat{\theta}_n\)為\(\theta\) 的漸近無偏估計。
當我們使用無偏估計 \(\hat{\theta }\) 去估計 \({\theta}\) 時,每次的實現值 \(\hat{\theta }\) 對 \({\theta}\) 的偏差\(\hat{\theta }-{\theta}\)總是存在的。
由於樣本的隨機性,這種偏差時大時小,時正時負,而把這些偏差平均起來其值為0,這就是無偏估計自的含義。所以無偏是指無系統偏差。

若一個估計不具有無偏性,估計均值 \(E\left ( \hat{\theta } \right )\) 與參數真值 \(\theta\) 總有一定距離,這個距離就是系統偏差。這就是有偏估計的缺點。

漸近無偏估計是指系統偏差會隨着樣本量 n 的增加而逐漸減小,最后趨於 \(\theta\) ,所以在大樣本場合此種有偏估計 \(\hat{\theta }_n\) ,可以近似當作無偏估計使用。
參考:
[1]數理統計學(2版)/茆詩松等編著.北京:中國人民大學出版社,2016.1
