遷移到:http://www.bdata-cap.com/newsinfo/1741415.html
本文內容
- 分位數
- 中位數
- 四分位數
- 百分位數
- 參考資料
- 演示
分位數
分位數(Quantile),也稱分位點,是指將一個隨機變量的概率分布范圍分為幾個等份的數值點,分析其數據變量的趨勢。常用的有中位數、四分位數、百分位數等。
中位數
中位數(Medians)是一個統計學的專有名詞,代表一個樣本、種群或概率分布中的一個數值,可以將數值集合划分為相等的兩部分,即,若設連續隨機變量 X 的分布函數為 F(X),那么滿足條件 F(X)=1/2 ,稱為 X 或分布 F 的中位數。中位數是用來衡量集中趨勢的方法。對於一個有限的、有序的數集,位於中間位置的那個數值就是中位數,用 Me 表示。
中位數可以擴展到四分位數,即中位數再取中位數,變成四分位數。
四分位數
若設連續隨機變量 X 的分布函數為 F(X),那么滿足條件 F(X)=1/4 ,稱為 X 或分布 F 的四分位數。四分位數通常用箱形圖(Box Plots)表示。箱形圖能顯示出一組數據的最大值(Maximum)、最小值(Minimum)、中位數(Q2)、下四分位數(Q1)及上四分位數(Q3)。
四分位描述為,將 n 個數從小到大排列 xn=(x1,x2,x3,…,xn),那么 Q1,Q2,Q3 的位置 L:
當計算的位置為小數時,即 n 為奇數,其四分位數將在后面示例中介紹。
箱形圖
箱形圖是於 1977年由美國著名統計學家約翰·圖基(John Tukey)發明,如下所示:
圖 1 箱形圖
這組數據顯示出:
- 最小值(Minimum)為 5
- 下四分位數(Q1)為 7
- 中位數(Q2,Median)為 8.5
- 上四分位數(Q3)為 9
- 最大值(Maximum)為 10
- 平均值為 8
- 四分位間距(Inter-quartile range,IQR)為 Q3-Q1=2,即 ΔQ,在區間 Q1-1.5ΔQ,Q3+1.5ΔQ 之外的值被視為應忽略(farout)。
- farout:在圖上不予顯示,僅標注一個符號。
- 最大值區間: Q3+1.5ΔQ
- 最小值區間: Q1-1.5ΔQ
- 最大值與最小值產生於這個區間。區間外的值被視為 outlier 顯示在圖上。
- mild outlier 為 3.5
- extreme outlier 為 0.5
圖 2 正態分布 N(0,1σ2) 的箱形圖和概率密度函數
不論 Q1,Q2,Q3 的變異量數數值為何,均視為一個分界點,以此將總數分成四個相等部分,可以通過 Q1 和 Q3 比較,分析其數據變量的趨勢。
示例 1
某車間某月份的工人生產某產品的數量分別為 x=(13, 13.5, 13.8, 13.9, 14, 14.6, 14.8, 15, 15.2, 15.4, 15.7) 公斤,則三個四分位數的位置分別為:
即數組第3、第6、第9個工人的某種產品產量分別為下四分位數、中位數和上四分位數為:
Q1 = 13.8 公斤、Q2 = 14.6 公斤、Q3 = 15.2 公斤
示例 2
某車間某月份的工人生產某產品的數量分別為 x=(13, 13.5, 13.8, 13.9, 14, 14.6, 14.8, 15, 15.2, 15.4) 公斤,則三個四分位數的位置分別為:
即數組中的第 2.75 項、第 5.5 項、第 8.25 項分別為下四分位數、中位數和上四分位數。即:
Q1=0.25×第2項+0.75×第3項=0.25×13.5+0.75×13.8=13.73 (公斤)
Q2=0.5×第5項+0.5×第6項=0.5×14+0.5×14.6=14.3 (公斤)
Q3=0.75×第8項+0.25×第9項=0.75×15+0.25×15.2=15.05 (公斤)
若(n+1)為 4 的倍數,則確定四分數很簡單;否則,若不是 4 的倍數,即小數,則四分位數是該小數的最大整數和最小整數位置上的值的平均數。
另外,權重的大小取決於兩個整數位置距離的遠近,距離越近,權數越大,距離越遠,權數越小,權數之和等於 1。
示例 3
若有有序數組 x=(17, 19, 22, 24, 25, 28, 34),則四分位數:
Q1 的位置= (n + 1) / 4 = (7 + 1) / 4 = 2
Q3 的位置= 3*(n + 1) / 4 = 3*(7 + 1) / 4 = 6
則 Q1 與 Q3 分別為 19 和 28;IQR 四分位差為 Q3 − Q1=28-19=9
說明 50% 的數據集中在 19~28 之間,最大差異為 9。
百分位數
百分位數又稱百分位分數(percentile),是一種相對地位量數,它是次數分布(Frequency Distribution,頻數分布)中的一個點。把一個次數分布排序后,分為 100 個單位,百分位數就是次數分布中相對於某個特定百分點的原始分數,它表明在次數分布中特定個案百分比低於該分數。百分位數用P加下標 m(特定百分點)表示。譬如,若P30等於60,則其表明在該次數分布中有 30% 的個案低於 60 分。
百分位數運用在教育統計學中,如表現測驗成績時,又稱 PR 值(Percentile ranks),用於描述一組數據某一百分位置的水平,多個百分位數結合應用,可全面描述一組觀察值的分布特征;百分位數還可用於確定非正態分布資料的醫學參考值范圍。但應用百分位數時,樣本含量要足夠大,否則不宜取太靠近兩端的百分位數。
計算公式為:
其中,
- Pm:第 m 百分位數;
- L:Pm所在組的組實下限;
- U:Pm所在組的組實上限;
- f:Pm所在組的次數;
- Fb:小於 L 的累積次數;
- Fa:大於 U 的累積次數。
示例 1
某省某年公務員考試考生分數分布如下表所示,預定取考分居前 15% 的考生進行面試,請划定面試分數線。
分數分組 |
次數 |
向上累積次數 |
向下累積次數 |
向上累積相對次數 |
95~99 |
7 |
1640 |
7 |
100% |
90~94 |
16 |
1633 |
23 |
99.57% |
85~89 |
53 |
1617 |
76 |
98.60% |
80~84 |
78 |
1564 |
154 |
95.37% |
75~79 |
90 |
1486 |
244 |
90.61% |
70~74 |
119 |
l396 |
363 |
85.12% |
65~69 |
159 |
1277 |
522 |
77.87% |
60~64 |
156 |
1118 |
678 |
68.17% |
55~59 |
140 |
962 |
818 |
58.66% |
50~54 |
145 |
822 |
963 |
50.12% |
45~49 |
140 |
677 |
1103 |
41.28% |
40~44 |
135 |
537 |
1238 |
32.74% |
35~39 |
130 |
402 |
1368 |
24.51% |
30~34 |
126 |
272 |
1494 |
16.59% |
25~29 |
78 |
146 |
1572 |
8.90% |
20~24 |
25 |
68 |
1597 |
4.15% |
15~19 |
20 |
43 |
1617 |
2.62% |
10~14 |
16 |
23 |
1633 |
1.40% |
5~9 |
7 |
7 |
1640 |
0.43% |
由於預定取考分居前 15% 的考生進行面試,即有85%的考生分數低於划定的分數線,由此可知,分數線在 70~74 這一組中。
參考資料
- D3 box plot 演示
- 中位數
- Wiki 四分位數
- MBALib 四分位
- Wiki 百分位數
- baidu 四分位數
- Wiki 箱形圖
- Wiki 百分位數
- Wiki 統計學
- MBALib 次數分布