數值方法
樣本統計量:數據來自樣本,計算的度量
總體參數:數據來自總體,計算的度量
點估計量: 樣本統計量被稱為是相應總體參數的點估計量
位置的度量
平均數
最重要的變量:平均數(mean)
如果數據來自某個樣本,則樣本平均數為 。
公式為:
如果數據來自某個總體,則平均數用希臘字母μ表示。
公式為:
中位數
將所有數據按升序排序后,位於中間的數值即為中位數。
(1)當觀測值是奇數時,中位數就是中間那個數值。
(2)當觀測值是偶數時,則沒有單一的中間數值,這個時候定義中間兩個觀測值的平均數。
平均數往往會受到異常大或異常小的數值影響,中位數這個時候提供了比平均數更好的中心位置的度量。
經常用在年收入及資產價值數據的報告中,因為少數極端大的收入和資產價值將會誇大平均數。
眾數
就是數據集中出現次數最多的數值。
需要注意,如果出現了兩個或兩個以上的眾數,幾乎從不報告眾數,因為對於描述數據的位置並不能起多大作用。
百分位數
提供了數據如何散步在從最小值到最大值的區間上的信息。
第P百分位數:
假設一名學生的語言考了54分,相對於參加同樣考試的學生,這個學生的表現如何,可能不太清除,但是如果對應着第70百分數,則說明70%的學生比他低,30%的學生比他搞。
計算步驟:
-
把數據按升序排序
-
計算指數i:
-
p為所求百分數,n是觀測值的個數。
-
(1)若i不是整數,則向上取整,大於i的下一個整數表示第p百分數的位置。
(2)若i是整數,則第p百分位數是第i項和第(i+1)項數據的平均值。
實例:
i不是整數:
3310 3355 3450 3480 3490 3520 3540 3550 3650 3730 3925
我們取85%的標准,則是第11位。
i是整數:
第50百分數是第6和7項的平均值。(3490+3520)/2 = 3505,同時,第50百分位數也是中位數。
四分位數
目的是為了將數據划分為相等的四部分,四分位數的計算方法不同,結果也會略有不同。
四分位數是一種特殊的百分位數,因此,計算百分位數的步驟可以直接用於四分位數的計算。
調整平均數
當數據集中含有極端值時,使用中位數作為中心位置的度量比平均數更合適。
但是如果用平均數,則從數據集中刪除一定比例最大值和最小值,然后計算剩余數據的平均值。
5%調整平均數,刪除5%最小的數值和5%最大的數值,例如n=12,12*0.05=0.6,四舍五入值為1。則要刪除一個最大一個最小,求剩下10個的調整平均數。
練習
一、
a. 每場比賽3分球投籃的平均次數是多少?
350 / 19 = 18.42
b. 每場比賽3分球命中的平均次數是多少?
120 / 19 = 6.31
c. 較近的3分球,球員的命中率為35.2%。對新的3分線,球員的命中率是多少?
120 / 350 = 0.342*100%=34.2%
d. 將3分線后移至20英尺9英寸的影響是什么?
影響是命中率降低了1%的命中概率,無傷大雅。
二、
a. 直接用代碼寫了,手算費勁。
list1 = [120,230,110,115,160,130,150,105,195,155,105,360,120,120,140,100,115,180,235,255]
data = Series(list1)
# 平均數
data.mean()= 160.0
# 中位數
data.median() = 135.0
# 眾數
data.mode() = 120.0
b. 代碼生成
data.quantile([0.25,0.5,0.75])
0.25 115.00
0.50 135.00
0.75 183.75
dtype: float64
c.計算並解釋第90百分位數
data.quantile(0.9)
237.00
三、
a.GDP增長速度的最小預測值是多少?最大預測值是多少?
# 預測值
forcast = [2.6,3.1,2.3,2.7,3.4,0.9,2.6,2.8,2.0,2.4,2.7,2.7,2.7,2.9,3.1,2.8,1.7,2.3,2.8,3.5,0.4,2.5,2.2,1.9,1.8,1.1,2.0,2.1,2.5,0.5]
data=Series(forcast)
data.max()
3.5
data.min()
0.4
b. 計算平均數,中位數,眾數
data.mean()
2.30
data.median()
2.5
data.mode()
2.7
c. 計算第一四分位和第三四分位
data.quantile([0.25,0.75])
0.25 2.000
0.75 2.775
dtype: float64
d. 經濟學家對美國經濟持樂觀還是悲觀態度?
樂觀態度,中位數和平均數都在2.5以上,說明經濟學家普遍看好美國的經濟增長。