描述統計學：中位數、眾數、百分位數、平均數

本文轉載自查看原文 2018-11-06 13:11 857 數據挖掘系列

數值方法

樣本統計量：數據來自樣本，計算的度量

總體參數：數據來自總體，計算的度量

點估計量：樣本統計量被稱為是相應總體參數的點估計量

位置的度量

平均數

最重要的變量：平均數(mean)
如果數據來自某個樣本，則樣本平均數為 $\overline{x}$ 。

公式為：

$\overline{x}=\frac{\sum x_{i}}{n}$

如果數據來自某個總體，則平均數用希臘字母μ表示。

公式為：

$\mu =\frac{\sum x_{i}}{n}$

中位數

將所有數據按升序排序后，位於中間的數值即為中位數。
（1）當觀測值是奇數時，中位數就是中間那個數值。
（2）當觀測值是偶數時，則沒有單一的中間數值，這個時候定義中間兩個觀測值的平均數。

平均數往往會受到異常大或異常小的數值影響，中位數這個時候提供了比平均數更好的中心位置的度量。

經常用在年收入及資產價值數據的報告中，因為少數極端大的收入和資產價值將會誇大平均數。

眾數

就是數據集中出現次數最多的數值。

需要注意，如果出現了兩個或兩個以上的眾數，幾乎從不報告眾數，因為對於描述數據的位置並不能起多大作用。

百分位數

提供了數據如何散步在從最小值到最大值的區間上的信息。

第P百分位數：

假設一名學生的語言考了54分，相對於參加同樣考試的學生，這個學生的表現如何，可能不太清除，但是如果對應着第70百分數，則說明70%的學生比他低，30%的學生比他搞。

計算步驟：

把數據按升序排序
計算指數i：

$i = \left ( \frac{p}{100}\right )n$
p為所求百分數，n是觀測值的個數。
（1）若i不是整數，則向上取整，大於i的下一個整數表示第p百分數的位置。
（2）若i是整數，則第p百分位數是第i項和第（i+1）項數據的平均值。

實例：

i不是整數：

3310 3355 3450 3480 3490 3520 3540 3550 3650 3730 3925

$i = \left ( \frac{p}{100}\right )n=\left ( \frac{85}{100}\right )\times 12=10.2$

我們取85%的標准，則是第11位。

i是整數：

$i = \left ( \frac{p}{100}\right )n=\left ( \frac{50}{100}\right )\times 12=6$

第50百分數是第6和7項的平均值。（3490+3520）/2 = 3505，同時，第50百分位數也是中位數。

四分位數

目的是為了將數據划分為相等的四部分，四分位數的計算方法不同，結果也會略有不同。

gai

$Q_{1}$ =第一位四分位數，或第25百分位數

$Q_{2}$ =第二四分位數，或第50百分位數(也是中位數)

$Q_{3}$ =第三四分位數，或第75百分位數

四分位數是一種特殊的百分位數，因此，計算百分位數的步驟可以直接用於四分位數的計算。

調整平均數

當數據集中含有極端值時，使用中位數作為中心位置的度量比平均數更合適。

但是如果用平均數，則從數據集中刪除一定比例最大值和最小值，然后計算剩余數據的平均值。

5%調整平均數，刪除5%最小的數值和5%最大的數值，例如n=12，12*0.05=0.6，四舍五入值為1。則要刪除一個最大一個最小，求剩下10個的調整平均數。

練習

一、
gai

a. 每場比賽3分球投籃的平均次數是多少？

350 / 19 = 18.42

b. 每場比賽3分球命中的平均次數是多少？

120 / 19 = 6.31

c. 較近的3分球，球員的命中率為35.2%。對新的3分線，球員的命中率是多少？

120 / 350 = 0.342*100%=34.2%

d. 將3分線后移至20英尺9英寸的影響是什么？

影響是命中率降低了1%的命中概率，無傷大雅。

二、

gai

a. 直接用代碼寫了，手算費勁。

list1 = [120,230,110,115,160,130,150,105,195,155,105,360,120,120,140,100,115,180,235,255]
data = Series(list1)
# 平均數
data.mean()= 160.0
# 中位數
data.median() = 135.0
# 眾數
data.mode() = 120.0

b. 代碼生成

data.quantile([0.25,0.5,0.75])
0.25    115.00
0.50    135.00
0.75    183.75
dtype: float64

c.計算並解釋第90百分位數

data.quantile(0.9)
237.00

三、
gai

a.GDP增長速度的最小預測值是多少？最大預測值是多少？

# 預測值
forcast = [2.6,3.1,2.3,2.7,3.4,0.9,2.6,2.8,2.0,2.4,2.7,2.7,2.7,2.9,3.1,2.8,1.7,2.3,2.8,3.5,0.4,2.5,2.2,1.9,1.8,1.1,2.0,2.1,2.5,0.5]

data=Series(forcast)
data.max()
3.5

data.min()
0.4

b. 計算平均數，中位數，眾數

data.mean()
2.30
data.median()
2.5
data.mode()
2.7

c. 計算第一四分位和第三四分位

data.quantile([0.25,0.75])

0.25    2.000
0.75    2.775
dtype: float64

d. 經濟學家對美國經濟持樂觀還是悲觀態度？

樂觀態度，中位數和平均數都在2.5以上，說明經濟學家普遍看好美國的經濟增長。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 平均數_中位數_眾數在SqlServer實現平均數中位數眾數的實際意義統計學——平均數平均數中位數四分位數方差標准差 np.percentile獲取中位數、百分位數 C#計算數組的算術平均數、幾何平均數、調和平均數、平方平均數和中位數中位數、平均值、眾數統計學基礎知識（一）---描述統計（Descriptive Statistics） 070101_描述性統計（均值，中位數，眾數，方差，標准差，與常見的統計圖表） R和python語言如何求平均值，中位數和眾數