箱形圖是數據集中數據分布情況的衡量標准。它將數據集分為三個四分位數。盒形圖表示數據集中的最小值,最大值,中值,第一四分位數和第四四分位數。 通過為每個數據集繪制箱形圖,
比較數據集中的數據分布也很有用。
R中的盒形圖通過使用boxplot()
函數來創建。
基本公式為:
boxplot(x, data, notch, varwidth, names, main)
x - 是向量或公式。data - 是數據幀。notch - 是一個邏輯值,設置為TRUE
可以畫出一個缺口。
varwidth - 是一個邏輯值。設置為true
以繪制與樣本大小成比例的框的寬度。names - 是將在每個箱形圖下打印的組標簽。
main - 用於給圖表標題。
> A <- c(79.98, 80.04, 80.02, 80.04, 80.03, 80.03, 80.04)
> B <- c(80.02, 79.94, 79.98, 79.97, 79.97, 80.03, 79.95)
> boxplot(A,B,notch=T,names=c('A','B'),col=c('green','yellow'))
五數總括:
在探索性數據分析中,最有代表性,能反映數據特征的的五個數:上四分為數,下四分為數,中位數,最小值和最大值
R語言中,使用函數fivenum(x,na.rm=TRUE)來計算五個數,na.rm=TRUE,代表數據集中缺失值的時候,舍去
> fivenum(A)
[1] 79.980 80.025 80.030 80.040 80.040
> fivenum(B)
[1] 79.94 79.96 79.97 80.00 80.03