描述統計學:中位數、眾數、百分位數、平均數


數值方法

樣本統計量:數據來自樣本,計算的度量
總體參數:數據來自總體,計算的度量
點估計量: 樣本統計量被稱為是相應總體參數的點估計量

位置的度量

平均數

最重要的變量:平均數(mean)
如果數據來自某個樣本,則樣本平均數為

公式為:

如果數據來自某個總體,則平均數用希臘字母μ表示。

公式為:

中位數

將所有數據按升序排序后,位於中間的數值即為中位數。
(1)當觀測值是奇數時,中位數就是中間那個數值。
(2)當觀測值是偶數時,則沒有單一的中間數值,這個時候定義中間兩個觀測值的平均數。

平均數往往會受到異常大或異常小的數值影響,中位數這個時候提供了比平均數更好的中心位置的度量。

經常用在年收入及資產價值數據的報告中,因為少數極端大的收入和資產價值將會誇大平均數。

眾數

就是數據集中出現次數最多的數值。

需要注意,如果出現了兩個或兩個以上的眾數,幾乎從不報告眾數,因為對於描述數據的位置並不能起多大作用。

百分位數

提供了數據如何散步在從最小值到最大值的區間上的信息。

第P百分位數:

假設一名學生的語言考了54分,相對於參加同樣考試的學生,這個學生的表現如何,可能不太清除,但是如果對應着第70百分數,則說明70%的學生比他低,30%的學生比他搞。

計算步驟:

  1. 把數據按升序排序

  2. 計算指數i:

  3. p為所求百分數,n是觀測值的個數。

  4. (1)若i不是整數,則向上取整,大於i的下一個整數表示第p百分數的位置。
    (2)若i是整數,則第p百分位數是第i項和第(i+1)項數據的平均值。

實例:

i不是整數:

3310 3355 3450 3480 3490 3520 3540 3550 3650 3730 3925

我們取85%的標准,則是第11位。

i是整數:

第50百分數是第6和7項的平均值。(3490+3520)/2 = 3505,同時,第50百分位數也是中位數。

四分位數

目的是為了將數據划分為相等的四部分,四分位數的計算方法不同,結果也會略有不同。

gai

=第一位四分位數,或第25百分位數

=第二四分位數,或第50百分位數(也是中位數)

=第三四分位數,或第75百分位數

四分位數是一種特殊的百分位數,因此,計算百分位數的步驟可以直接用於四分位數的計算。

調整平均數

當數據集中含有極端值時,使用中位數作為中心位置的度量比平均數更合適。

但是如果用平均數,則從數據集中刪除一定比例最大值和最小值,然后計算剩余數據的平均值。

5%調整平均數,刪除5%最小的數值和5%最大的數值,例如n=12,12*0.05=0.6,四舍五入值為1。則要刪除一個最大一個最小,求剩下10個的調整平均數。

練習

一、
gai

a. 每場比賽3分球投籃的平均次數是多少?

350 / 19 = 18.42

b. 每場比賽3分球命中的平均次數是多少?

120 / 19 = 6.31

c. 較近的3分球,球員的命中率為35.2%。對新的3分線,球員的命中率是多少?

120 / 350 = 0.342*100%=34.2%

d. 將3分線后移至20英尺9英寸的影響是什么?

影響是命中率降低了1%的命中概率,無傷大雅。

二、

gai

a. 直接用代碼寫了,手算費勁。

list1 = [120,230,110,115,160,130,150,105,195,155,105,360,120,120,140,100,115,180,235,255]
data = Series(list1)
# 平均數
data.mean()= 160.0
# 中位數
data.median() = 135.0
# 眾數
data.mode() = 120.0

b. 代碼生成

data.quantile([0.25,0.5,0.75])
0.25    115.00
0.50    135.00
0.75    183.75
dtype: float64

c.計算並解釋第90百分位數

data.quantile(0.9)
237.00

三、
gai

a.GDP增長速度的最小預測值是多少?最大預測值是多少?

# 預測值
forcast = [2.6,3.1,2.3,2.7,3.4,0.9,2.6,2.8,2.0,2.4,2.7,2.7,2.7,2.9,3.1,2.8,1.7,2.3,2.8,3.5,0.4,2.5,2.2,1.9,1.8,1.1,2.0,2.1,2.5,0.5]

data=Series(forcast)
data.max()
3.5

data.min()
0.4

b. 計算平均數,中位數,眾數

data.mean()
2.30
data.median()
2.5
data.mode()
2.7

c. 計算第一四分位和第三四分位

data.quantile([0.25,0.75])

0.25    2.000
0.75    2.775
dtype: float64

d. 經濟學家對美國經濟持樂觀還是悲觀態度?

樂觀態度,中位數和平均數都在2.5以上,說明經濟學家普遍看好美國的經濟增長。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM