Excel 中的盒須圖
翻譯自https://www.excel-easy.com/examples/box-whisker-plot.html
本示例教您如何在Excel中創建盒須圖。盒須圖顯示了數據集的最小值,第一四分位數,中位數,第三四分位數和最大值。
簡單盒須圖
-
例如,選擇范圍A1:A7。
注意:您不必對數據點從最小到最大的順序進行排序,但這將有助於您理解盒須圖。 -
在“插入”選項卡上的“圖表”組中,單擊“統計圖表”符號。
-
點擊箱線圖(盒須圖)
結果:
說明:框的中間線代表中位數或中間數(8)。框中的x表示平均值(在此示例中也為8)。中位數將數據集分為下半部分{2,4,5}和上半部分{10,12,15}。框的底線代表下半部分或第一四分位數(4)的中位數。框的頂行代表上半部分或第三個四分位數(12)的中位數。須(垂直線)從盒子的兩端延伸到最小值(2)和最大值(15)。
離群值
-
例如,選取范圍 A1:A11.
注意:中位數或中位數(8)將數據集分為兩半:{1、2、2、4、5}和{10、12、15、18、35}。第一四分位數(Q1)是上半部分的中位數。Q1 =2。第三個四分位數(Q3)是下半部分的中位數。Q3 = 15。 -
在“插入”選項卡上的“圖表”組中,單擊“統計圖表”符號。
-
點擊箱線圖(盒須圖)
結果:
說明:四分位數間距(IQR)定義為第一四分位數與第三四分位數之間的距離。在此示例中,IQR = Q3-Q1 = 15-2 =13。如果數據點的距離超出第一個四分位數以下IQR的1.5倍(Q1- 1.5 * IQR = 2-1.5 * 13 =-17.5)或高於第三四分位數的IQR的1.5倍(Q3 + 1.5 * IQR = 15 + 1.5 * 13 = 34.5)。因此,在此示例中,35被認為是異常值。結果,頂部晶須延伸到該范圍內的最大值(18)。 -
將最后一個數據點更改為34。
結果:
說明:所有數據點都在-17.5和34.5之間。結果,須擴展到最小值(2)和最大值(34)。
箱線圖計算
在大多數情況下,如果不執行計算,就無法輕松確定第一四分位數和第三四分位數。
-
例如,在下面選擇偶數個數據點
-
在“插入”選項卡上的“圖表”組中,單擊“統計圖表”符號。
-
點擊箱線圖(盒須圖)
結果:
說明:Excel使用QUARTILE.EXC函數來計算第一四分位數(Q1),第二四分位數(Q2或中位數)和第三四分位數(Q3)。此函數在兩個值之間插值以計算四分位數。在此示例中,n = 8(數據點數)。 -
Q1 =第1/4 *(n + 1)個值= 1/4 *(8 + 1)個值= 2 1/4個值= 4 + 1/4 *(5-4)= 4 1/4。您可以使用QUARTILE.EXC函數或查看盒須圖來驗證此數字。
-
Q2 =第1/2 *(n + 1)個值= 1/2 *(8 + 1)個值= 4 1/2個值= 8 + 1/2 *(10-8)=9。這使得在某種意義上,中位數是中間兩個數字的平均值。
-
Q3 =第3/4 *(n + 1)個值=第3/4 *(8 + 1)個值= 6 3/4個值= 12 + 3/4 *(15-12)= 14 1/4。同樣,您可以使用QUARTILE.EXC函數或查看盒須圖來驗證此數字。
在Excel中創建有離群值的箱線圖
翻譯自http://www.real-statistics.com/excel-capabilities/creating-box-plot-outliers-manually/
創建帶有異常值的箱形圖的步驟(參見帶有異常值的箱形圖)與特殊制圖功能中描述的步驟相似。一個主要區別是,它不是以最大數據值結束頂部須,而是以小於或等於Q3 + 1.5 * IQR的最大數據值結束。同樣,底部須以大於或等於Q1 – 1.5 * IQR的最小數據值結束。另一個區別是我們需要手動添加一個小圓圈或每個大於Q3 + 1.5 * IQR或小於Q1 – 1.5 * IQR的數據值。我們還在平均值數據值處添加一個×。
示例1:
重復特殊制圖功能的示例2,顯示異常值。
結果如圖1所示。我們現在展示如何使用標准Excel功能手動構建此輸出。
圖1-帶有異常值的箱形圖
要手動創建此箱形圖,您需要首先創建F12:F17范圍內的值。通過公式 =QUARTILE(A4:A13,1), =MEDIAN(A4,A13), =QUARTILE(A4:A13,3) 和= =AVERAGE(A4:A13),分別計算 品牌A在F12:F17范圍內的Q1,中位數,Q3和平均值。品牌A的“Lower”(即較低的須)和“Upper”(即較高須)的值是通過數組公式計算得出的
=MIN(IF(A4:A13>=F12-1.5(F14-F12),A4:A13,””))
=MAX(IF(A4:A13<=F14+1.5(F14-F12),A4:A13,””))
請記住,這些是數組公式,因此您需要按Ctrl-Shift-Enter,而不僅僅是Enter。
輸入所有這些公式后,選中F12:H17並按Ctrl-R。接下來,將公式= F12放在單元格F6中,選中F6:H6,然后按Ctrl-R。最后將公式=MAX(F13-F12,0) 放在單元格F7中,選中F7:H10並依次按下 Ctrl-R和Ctrl-D組合鍵。這將填充F6:H10范圍內的所有值。
現在,您將按照與特殊制圖功能中示例1或2中相同的步驟進行操作,將“Lower”和“Upper”替換為“Min”和“Max。結果將如圖1所示,不同之處在於未顯示離群值和均值的o和×符號。現在我們展示如何分別添加這些符號。
我們首先為每個品牌添加平均值。單擊圖1中的圖表,然后選擇圖表工具|設計>數據|選擇數據。這將彈出如圖2所示的對話框。
圖2-選擇數據源
單擊添加按鈕(在對話框的左側)。填寫出現的對話框,如圖3所示。
圖3-添加新的均值序列
當您按下OK按鈕時,圖表將變為圖4所示的圖表。
圖4-修改后的圖表
我們得到此結果,因為Excel將添加的均值解釋為堆疊的條形圖。我們需要告訴Excel該添加的系列應解釋為散點圖。為此,我們首先單擊再次出現的“選擇數據源”對話框的“確定”按鈕(請參見圖2)以關閉此對話框,然后右鍵單擊圖4所示的任何藍色條。我們接下來從顯示的菜單中選擇更改圖表類型...。現在將出現如圖5所示的對話框。
圖5-``更改圖表類型''對話框
從圖5中可以看到,這些工具被視為堆積列(Stacked Column)。現在,單擊m的下拉菜單(以Stacked Column為標題),然后選擇第一個Scatter Plot選項。然后按“更改圖表類型”對話框上的“確定”按鈕。
圖表更改為更可接受的格式,如圖6所示。
圖6-添加品牌均值后的方框圖
現在,我們將異常值添加到圖表中,但是首先我們需要確定異常值。一種實現此目的的方法如圖7所示。
圖7-識別異常值
我們將公式 =IF(A4>F$15,A4,IF(A4<F$11,A4,””))放在單元格Q4中,選中Q4:S13,然后按Ctrl-R和Ctrl-D。我們發現,品牌B僅存在兩個異常值,即-300和1850。
現在,我們使用類似於添加平均值的過程,將這兩個離群值逐一添加到圖表中。要添加1850,請單擊圖6中的圖表,然后選擇圖表工具|設計>數據|選擇數據。這將彈出如圖2所示的對話框。再次單擊Add按鈕。填寫出現的對話框,如圖8所示。
圖8-為一個異常值添加新系列
請注意,這次默認圖表是散點圖(最后選擇的圖表類型),因此系統會提示我們輸入X和Y值(與圖3中的提示不同)。由於離群值1850(如圖7的單元格R10中所示)位於品牌B中,因此我們必須在“系列X值”字段中插入2。
我們以類似的方式添加離群值-300。結果如圖9所示。
圖9-帶有異常值的箱形圖
最后一步是更改用於指示異常值的標記符號。我們展示了如何在Excel 2013中執行此操作。此方法在其他版本的Excel中也類似。
單擊離群值標記符號之一,然后選擇“圖表工具” |“格式”>“當前選擇” |“格式選擇”。單擊“填充和線條”圖標,然后選擇“標記”選項。請參見圖10。接下來,從“標記選項”中單擊“內置”,然后選擇所需的類型。您還可以選擇顏色(圖10的右下角)。
圖10-更改標記類型
現在,對其他異常值重復上述步驟。
觀察:請注意,盡管存在一個負值,即品牌B的離群值-300(圖1的單元格B11),但使用“實數統計”的“帶異常值的箱形圖”選項時,無需對負值進行調整描述性統計和常態數據分析工具。這樣做的原因是,較低的須沒有一個進入負范圍。
從單元格F18中的公式=MIN(0,F11:H11)可以看出。只要該值為零且不為負,則無需進行調整。
示例2:
使用Real Statistics Descriptive Statistics and Normality數據分析工具的Box Plot with Outliers選項為圖11的A6:A16范圍內的數據創建Box Plot。
如果我們重復示例1所述的所有步驟,這一次我們發現品牌B的須確實處於負數區域。從圖11的單元格F18包含負值-50的事實可以明顯看出這一點。
盡管如此,對於示例1所述的手動過程仍不需要更改。當我們使用Real Statistics Descriptive Statistics and Normality數據分析工具時,數據分析工具會進行調整以處理圖11單元格F18中的負值。
圖11-具有離群值的箱形圖,負調整
實數統計數據分析工具在執行示例1所述的過程時所做的主要更改,是在單元格F5中使用以下公式=F11-$F18。選中F5:H5並按Ctrl-R后,將對所有三個品牌的“Lower”值進行類似的調整。
數據分析工具還可以通過–F18(即加50)來調整均值和離群值。圖12顯示了如何識別離群值。這是通過在單元格R7中插入公式=IF(A4>F\(15,A4-\)F$18,IF(A4<F\(11,A4-\)F$18,””))並突出顯示范圍Q4:S13並按Ctrl-R和Ctrl-D。
圖12-異常值的負調整
這將產生三個離群值,對於品牌A為50,對於品牌B為1850,對於品牌B為-300,分別增加了50。4對C的回應
在Excel中創建簡單的箱形圖
翻譯自 http://www.real-statistics.com/excel-capabilities/special-charting-capabilities/
在Box Plots中,我們看到了如何使用Real Statistics Descriptive Statistics and Normality數據分析工具的Box Plots選項創建Box Plots。現在,我們展示如何使用Excel的圖表功能手動創建這些箱形圖。
示例1:
使用Excel的圖表功能為“箱形圖”示例1創建箱形圖。
圖1 –箱線圖數據
選擇包含數據的范圍,包括標題(A3:C13)。現在,在E3:H8范圍內創建表。F列中的輸出對應於A列中的原始數據。G列對應於B列,H列對應於C列。實際上,一旦您構造了范圍F4:F8的公式,就可以填寫其余的通過突出顯示范圍F4:H8並按Ctrl-R來顯示表格。
F4:F8范圍內的單元格的公式如下:
圖2 –箱形圖表公式
構造表格后,可以如下創建相應的箱形圖:
- 選擇數據范圍E3:H7。請注意,標題包括在范圍內,但不包括最后一行。
- 選擇“插入”>“圖表|列”>“堆積列”
- 如果需要,請選擇“設計”>“數據” |“切換行/列”,以便X軸代表品牌選擇圖表中最低的數據系列(即最小值),然后將填充設置為無填充(必要時將邊框顏色設置為無線)以刪除最低的框。通過右鍵單擊圖表中的三個“最小”數據系列框,然后選擇“設置數據系列格式”,可以完成此操作。在出現的對話框中,選擇“填充|不填充”。
- 對最低可見數據序列(即Q1-Min)重復上述步驟;即,右鍵單擊Q1-Min數據系列,然后選擇格式化數據系列…>填充|不填充。或者,右鍵單擊Q1-Min數據系列,然后按Ctl-Y。
- 在仍選擇Q1-Min數據系列的情況下,選擇“布局”>“分析” |“錯誤欄”>“更多錯誤欄選項”。在出現的對話框(“垂直誤差欄”菜單)上,單擊“減去”和“百分比”單選按鈕,然后插入100%的百分比誤差。
- 單擊Q3-Med數據系列(最上面的一個),然后選擇“布局”>“分析” |“錯誤欄”>“更多錯誤欄選項”。在出現的對話框(“垂直錯誤欄”菜單)上,單擊“增加”和“自定義”單選按鈕,然后單擊“指定值”按鈕。現在在顯示的對話框中(在“正錯誤值”字段中)指定范圍F8:H8,即您在上面創建的表的最后一行。
- 通過選擇布局>標簽|圖例>無來刪除圖例。
結果箱形圖是
圖3 –箱形圖
觀察:
上述方法非常適用於非負數據。當數據集為負值時,軸將向上移動–MIN(R),其中R是包含數據的數據范圍。因此,如果R的范圍是-10到20,則圖表中的范圍將是0到30。這對於上述手動方法以及由Real Statistics Resource Pack中的補充數據分析工具生成的箱形圖均適用。。現在,我們展示當一個或多個數據元素為負數時,如何手動生成箱形圖。
示例2:
使用Excel的圖表功能為圖4中的數據創建箱形圖。
圖4包含與圖1相同的數據,除了我們更改了單元格B11中的值使其為負。
圖4 –負數據的箱形圖
根據數據,我們按照上述方法在E3:H8范圍內構造了修改后的表格,然后執行以下步驟來創建圖表:
- 選擇數據范圍E3:H6。請注意,標題包括在范圍內,但不包括最后兩行。
- 選擇“插入”>“圖表|列”>“堆積列”
- 如有必要,請選擇“設計”>“數據” |“切換行/列”,以使軸代表品牌。
- 選擇圖表中最低的數據系列(即Q1),然后將填充設置為
不填充''(必要時將邊框顏色設置為
無線'')以刪除最低的框。通過右鍵單擊圖表中的三個Q1數據系列框中的任意一個,然后選擇“設置數據系列格式”,可以完成此操作。在出現的對話框中,選擇“填充|不填充”。 - 在仍選擇Q1數據系列的情況下,選擇“布局”>“分析” |“錯誤欄”>“更多錯誤欄選項”。在出現的對話框(“垂直錯誤欄”菜單)上,單擊“減號”和“自定義”單選按鈕,然后單擊“指定值”按鈕。現在,在顯示的對話框中(在“負誤差值”字段中)指定范圍F7:H7,即上面創建的表的倒數第二行。
- 單擊Q3-Med數據系列(最上面的一個),然后選擇“布局”>“分析” |“錯誤欄”>“更多錯誤欄選項”。在出現的對話框(“垂直錯誤欄”菜單)上,單擊“加號”和“自定義”單選按鈕,然后單擊“指定值”按鈕。現在在顯示的對話框中(在“正錯誤值”字段中)指定范圍F8:H8,即您在上面創建的表的最后一行。
- 通過選擇布局>標簽|圖例>無來刪除圖例。
結果圖表如下:
圖5 –箱形圖:替代方法
觀察:
不幸的是,Real Statistics Resource Pack中的數據分析工具無法自動生成此箱形圖。當出現負數據時,有兩種選擇:
如示例2中所述手動生成箱形圖
使用Real Statistics描述性統計和正態數據分析工具的Box Plot選項(如Box Plots中所述),並接受y軸將向上移動,或者通過右鍵單擊y來刪除y軸上的標簽y軸上的標簽,然后選擇刪除(或按Backspace鍵)
帶異常值的箱形圖
Excel 2016添加了“框線圖”功能。要在Excel中使用此功能創建箱形圖,請選中A2:C11(來自圖1),然后選擇“插入”>“圖表” |“統計”>“箱線”。將會出現圖1右側所示的圖表。
圖1-Excel的Box和Whiskers圖表
您可以像往常一樣添加圖例以及圖表和軸標題。圖表的方框部分如上所述,不同之處在於平均值顯示為×。晶須從框的頂部向上延伸到小於或等於四分位間距(IQR)的1.5倍的最大數據元素,而從框的底部向下延伸到大於1.5倍的四分位數間距的最小數據元素。IQR。超出此范圍的值被認為是離群值,並以點表示。
盒和須的邊界由圖2中所示的值和公式計算得出。唯一的異常值是品牌B的值1850,該值高於上須,因此顯示為點。
圖2-箱形圖的公式
注意我們也可以使用數組公式
=MAX(IF(C2:C11<=H7,C2:C11,MIN(C2:C11)))
計算單元格H9中的值,以及數組公式
=MIN(IF(C2:C11>=H8,C2:C11,MAX(C2:C11)))
計算單元格H10的值。
實際上,由於Excel Box Plot僅在Excel 2016中可用,因此我們也可以使用Excel 2016(非數組)公式=MAXIFS(C2:C11,”<=”&H7) and =MINIFS(C2:C11,”>=”&H8)。
Real Statistics數據分析工具:Real Statistics資源包還提供了一種生成帶有異常值的箱形圖的方法。要生成這樣的箱形圖,請按照在Excel中創建箱形圖的示例1進行操作,只是這次您應選擇描述性統計和正態數據分析工具的具有異常值的箱形圖選項。圖3顯示了在Excel中創建箱形圖示例1的輸出。
圖3 –帶離群值工具的箱形圖輸出
如您所見,輸出類似於圖1所示,除了該版本在Excel 2016以外的其他版本的Excel中可用。此外,離群值乘數不是固定為1.5,但可以通過設置為另一個值。用戶(在“描述性統計和正態數據分析工具”對話框中)。
離群值乘數顯示在圖3中顯示的輸出的單元格F2中。此值用於計算最小值和最大值(這是下晶須底部和上晶須頂部的值)。例如。單元格F12包含數組公式 =MIN(IF(ISBLANK(A4:A13),””,IF(A4:A13>=F13-\(F2*(F15-F13),A4:A13,””))) 和單元格F16包含公式 =MAX(IF(ISBLANK(A4:A13),””,IF(A4:A13<=F15+\)F2*(F15-F13),A4:A13,””))) 。
如果在“配置”對話框中設置了“百分比”選項,則應在“異常值乘數”字段中輸入所需值的100倍;例如如果要使用1.5離群倍數,請輸入150。還要注意,如果將此字段留為空白,則異常值乘數因子默認為2.2。
負數的處理方式類似於沒有異常值的箱形圖的處理方式(通常使用第二個y軸)。但是請記住,僅當至少一個箱形圖的下部晶須為負數時,才使用第二個y軸。如果一些離群值是負值,但下部須都不是負值,則不需要第二個y軸。
有關如何僅使用Excel圖表功能手動創建帶有離群值的框形圖的信息,請參見在Excel中創建帶有離群值的框形圖。某些數據為負數時出現的問題也在此進行了更深入的探討。
譯者注: Real Statistics Descriptive Statistics and Normality數據分析工具的**是Real Statistics網站開發的一個Excel插件。