數據可視化也是數據科學中非常重要的一節,面對繁雜的數據我們很難理出頭緒,但是畫出數據的分布圖就不一樣了,數據的內在規律清晰可見,尤其是在向領導匯報工作的時候,如果你拿的是一張張表格那基本可以斷定你要雞雞了,相反,如果你帶着一份精美的數據分析圖表,不加薪怪你老板沒眼光!!
我們的任務是看下商鋪評分數據分布!先上代碼,再看結果
import matplotlib.pyplot as plt
plt.hist(data["商鋪評分"])
plt.show()
在此看到的就是“商鋪評分”數據直方圖分布!接下來就是針對直方圖的美化!
增加了參數bins的設置,這樣直方圖的條數更多了!
import matplotlib.pyplot as plt
plt.hist(data["商鋪評分"], bins = 30)
plt.show()
從上圖可以看出,有少量的數據分布在0.7附近,區別於大多數數據,因此可以判定,這部分數據為異常值!接下來考慮怎樣將這部分值濾掉!
import matplotlib.pyplot as plt
data = data[data["商鋪評分"]>0.7] # 數據過濾
plt.hist(data["商鋪評分"], bins = 60)
plt.show()