箱圖及其統計學意義


箱圖及其統計學意義

 

 
盒形圖英文名稱為boxplot,中文名稱又有如下說法:箱圖、箱線圖、盒子圖。盒形圖相對簡單,使用方便,相對於另外三種圖形有自身獨特優點。
 
 
    

 

 

 
 
例:圖的左邊一個是根據地區1 高三男生的身高數據所繪的盒形圖;其右邊的圖代表另一個地區(地區2 )的高三學生的身高。

 


 
盒圖(boxplot)對於顯示數據的離散的分布情況效果不錯
 
 
 
盒圖是在1977年由美國的統計學家約翰·圖基(John Tukey)發明的。它由五個數值點組成:最小值(min),下四分位數(Q1),中位數(median),上四分位數(Q3),最大值(max)。也可以往盒圖里面加入平均值(mean)。如上圖。下四分位數、中位數、上四分位數組成一個“帶有隔間的盒子”。上四分位數到最大值之間建立一條延伸線,這個延伸線成為“胡須(whisker)”。
由於現實數據中總是存在各式各樣地“臟數據”,也成為“離群點”,於是為了不因這些少數的離群數據導致整體特征的偏移,將這些離群點單獨匯出,而盒圖中的胡須的兩級修改成最小觀測值與最大觀測值。這里有個經驗,就是最大(最小)觀測值設置為與四分位數值間距離為1.5個IQR(中間四分位數極差)。即

  • IQR = Q3-Q1,即上四分位數與下四分位數之間的差,也就是盒子的長度。
  • 最小觀測值為min = Q1 - 1.5*IQR,如果存在離群點小於最小觀測值,則胡須下限為最小觀測值,離群點單獨以點匯出。如果沒有比最小觀測值小的數,則胡須下限為最小值。
  • 最大觀測值為max = Q3 -1.5*IQR,如果存在離群點大於最大觀測值,則胡須上限為最大觀測值,離群點單獨以點匯出。如果沒有比最大觀測值大的數,則胡須上限為最大值。
通過盒圖,在分析數據的時候,盒圖能夠有效地幫助我們識別數據的特征:
    1. 直觀地識別數據集中的異常值(查看離群點)。
    2. 判斷數據集的數據離散程度和偏向(觀察盒子的長度,上下隔間的形狀,以及胡須的長度)  

參考:   

http://cn.mathworks.com/help/stats/boxplot.html

http://baike.baidu.com/item/%E7%9B%92%E5%BD%A2%E5%9B%BE

http://www.blogjava.net/norvid/articles/317235.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM