四分位數是統計學里一個很重要的概念,實際應用中,所畫出來的箱圖,就使用到了這個概念,只有懂了四分位的概念才能看懂箱圖所表達的意思。我這里通過一個實際的案例來說明四分位數的求取過程。
首先我們看下數據的情況,如下圖所示,數據的總個數為10個
1、在求取四分位數據時,首先必須做的是要對數據進行升序排序,如下圖。
2、四分位求取,首先需要得出該四分位數的位置,如下是四分位數在排序后數據中的位置的公式
在Excel中使用以上的公式來計算第0、1、2、3、4個四分位值處的位置,得出如下結果
3、四分位數的求取,使用的是以下所說明的一套計算規則
公式可能看起來較為復雜,說明一下:
1、四分位數最終的結果由2部分相加得到,其一是四分位位置的整數部分對應的數據,其二是四分位位置的小數部分乘以差值得到
2、差值是四分位位置整數部分對應數據的下一個數據減去四分位位置整數部分對應的數據。
在Excel中將上面那個公式實現的結果如下:
注意:如果數據的總個數n減去1,得到的結果是4的整數倍的話,那么四分位數的位置都是整數值,各四分位數就可以在升序排序后的數列中直接找到,否則就需要通過以上方式計算小數部分。
例如:n的值為5、9、13等等,就是可以在數列中直接找到各四分位數。
最后我們用一張圖來看看箱圖中各個圖形元素:
1、Q1表示第1個四分位值,Q2表示第2個四分位值,即中位數,Q3表示第3個中位數
2、IQR是第3個中位數與第1個中位數的差值
3、虛線最左側的划線表示Q1-1.5倍IQR,虛線最右側的划線表示Q1+1.5倍IQR
4、左右的黑點是離群點,最左側的離群點是最小值,最右側離群點是最大值
從以上結果可以解答以往對四分位數的誤區:
1、四分之一分位數並非中位數的2倍,也並非是四分之三分為的3倍
2、不要將箱圖虛線左右側的划線理解為四分之0分位,四分之四分位值,這2個分位值分別是最小值和最大值,它們可能會成為離群點