1.添加相關類庫
import pandas as pd
import pandas as np
import matplotlib.pyplot as plt
2.導入csv文件
data=pd.read_csv('catering_sale.csv')
3.輸出數據集的基本信息
data1=data.describe()
輸出結果:
sale
count 200
mean 2755
std 751.029772
min 22
25% 2451.975
50% 2655.85
75% 3026.125
max 9106.44
4.統計缺失的變量和樣本個數
data2=data.isnull().sum()
輸出結果:
日期 0
sale 1
dtype: int64
5.刪除缺失的變量
data.dropna(axis=0,how='any',inplace=True)
6.畫箱式圖
plt.boxplot(
x = data.sale, # 指定繪圖數據
patch_artist=True, # 要求用自定義顏色填充盒形圖,默認白色填充
showmeans=True, # 以點的形式顯示均值
boxprops = {'color':'black','facecolor':'#9999ff'}, # 設置箱體屬性,填充色和邊框色
flierprops = {'marker':'o','markerfacecolor':'red','color':'black'}, # 設置異常值屬性,點的形狀、填充色和邊框色
meanprops = {'marker':'D','markerfacecolor':'indianred'}, # 設置均值點的屬性,點的形狀、填充色
medianprops = {'linestyle':'--','color':'orange'}) # 設置中位數線的屬性,線的類型和顏色
plt.show()
輸出結果: