最近看資料時總是會看到箱形圖, 上大學時候曾經學過這個東西,不過這么多年也都忘記差不多了,正好借這機會再次學習學習。

箱型圖:
主要包含六個數據節點,將一組數據從大到小排列,分別計算出他的上邊緣,上四分位數Q3,中位數,下四分位數Q1,下邊緣,還有一個異常值。
異常值被定義為小於Q1-1.5IQR或大於Q3+1.5IQR的值。
Q1-1.5QR <= 正常數值 <= Q3+1.5QR
QR = Q3-Q1
以下內容引自:
http://www.blogjava.net/norvid/articles/317235.html


- IQR = Q3-Q1,即上四分位數與下四分位數之間的差,也就是盒子的長度。
- 最小觀測值為min = Q1 - 1.5*IQR,如果存在離群點小於最小觀測值,則胡須下限為最小觀測值,離群點單獨以點匯出。如果沒有比最小觀測值小的數,則胡須下限為最小值。
- 最大觀測值為max = Q3 -1.5*IQR,如果存在離群點大於最大觀測值,則胡須上限為最大觀測值,離群點單獨以點匯出。如果沒有比最大觀測值大的數,則胡須上限為最大值。
通過盒圖,在分析數據的時候,盒圖能夠有效地幫助我們識別數據的特征:
- 直觀地識別數據集中的異常值(查看離群點)。
- 判斷數據集的數據離散程度和偏向(觀察盒子的長度,上下隔間的形狀,以及胡須的長度)。
