作者|Rashida Nasrin Sucky
編譯|VK
來源|Towards Data Science
了解如何從直方圖和箱線圖中提取信息
理解這些數據並不意味着只得到平均值、中位數和標准差。很多時候,了解數據的可變性、傳播或分布是很重要的。直方圖和箱線圖都有助於提供有關數據集的大量額外信息,有助於理解數據。
直方圖
直方圖只從數據集中獲取一個變量,並顯示每次出現的頻率。我將使用一個簡單的數據集來學習直方圖如何幫助理解數據集。我會用python來制作圖片。導入數據集:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv("Cartwheeldata.csv")
df.head()
此數據集顯示Cartweel數據。假設,辦公室里的人決定去野餐時參加手推車距離競賽。上面的數據集顯示了結果。讓我們了解一下數據。
1.做一個“Age”的柱狀圖。
sns.distplot(df['Age'], kde =False).set_title("Histogram of age")
從上面的圖片可以看出,大多數人都在30歲以下。只有一個人39歲,一個人54歲。
2.查看“CWDistance”的分布
sns.distplot(df["CWDistance"], kde=False).set_title("Histogram of CWDistance")
很漂亮的階梯。很難說哪個波段的頻率最高。
3.有時將兩個分布圖一起繪制可以很好地理解。在同一圖中繪制“Height”和CWDistance”。
sns.distplot(df["Height"], kde=False)
sns.distplot(df["CWDistance"], kde=False).set_title("Histogram of height and score")
從這張照片上看,我們不能說高度和距離之間有關系。
現在看,我們可以從箱線圖中提取什么樣的信息。
箱線圖
方框圖顯示了數據的分布和更詳細的信息。它更清楚地顯示了異常值:最大值、最小值、四分位數(Q1)、第三四分位數(Q3)、四分位數范圍(IQR)和中值。你可以從IQR中計算出中間的50%。
它還提供了有關數據傾斜度、數據閉合程度和數據分布的信息。
讓我們看一些使用Cartwheel數據的例子。
1.畫一個“Score”的箱線圖。
sns.boxplot(df["Score"])
從這個圖片,我們可以說,
-
分布是正態的
-
中位數是6
-
最低分是2分
-
最高分是8分
-
第一個四分位數(前25%)是4
-
第三個四分位數(75%)是8
-
中間50%的數據范圍是4到8。
-
四分位數的范圍是4。
2.在同一個箱線圖中繪制兩個變量有助於理解其中一個變量如何影響另一個變量。在同一個圖中繪制CWDistance和“Glasses”以查看Glasses是否對CWDistance有任何影響。
sns.boxplot(x = df["CWDistance"], y = df["Glasses"])
沒有戴眼鏡的人的中位數比戴眼鏡的人高。不戴眼鏡的人的總體范圍較低,但IQR值較高。
從上圖來看,IQR的范圍是72到94。但對於戴眼鏡的人來說,CWDistance的總體范圍更大,而IQR則在66到90之間,這比不戴眼鏡的人要小。
3.對於分別戴眼鏡和不戴眼鏡的人來說,CWDistance的柱狀圖可以提供更多的理解。
g = sns.FacetGrid(df, row = "Glasses")
g = g.map(plt.hist, "CWDistance")
從這張照片上看,戴眼鏡的人的最大頻率是在CWDistance的開始。glasses對CWDistance的影響還需要進一步的研究。建立一個置信區間可能會有幫助。
我希望這篇文章能給你一些關於箱線圖和柱狀圖的附加信息。
更多閱讀建議:
-
置信區間、計算和特征:https://towardsdatascience.com/confidence-interval-calculation-and-characteristics-1a60fd724e1d
-
人口比例的置信區間和人口比例差異的計算:https://towardsdatascience.com/confidence-intervals-of-population-proportion-and-the-difference-in-python-6ab7faa0f255
-
均值和均值差的置信區間計算:https://towardsdatascience.com/how-to-calculate-confidence-interval-of-mean-and-the-difference-of-mean-993bfec0c968
歡迎關注磐創AI博客站:
http://panchuang.net/
sklearn機器學習中文官方文檔:
http://sklearn123.com/
歡迎關注磐創博客資源匯總站:
http://docs.panchuang.net/