首先我們看下數據
接下來數據分析操作
import numpy as np import pandas as pd from matplotlib import pyplot as plt if __name__ == "__main__": #讀取數據 df = pd.read_excel('tips.xlsx','sheet1') # print(df) #繪制散點圖 證明推論,消費隨着總賬單的遞增而遞增 # df.plot(kind='scatter',x='tip',y='total_bill',color='red',label='bill_tip') # plt.show() #計算消費占總帳單的百分比 . df['pct'] = df.tip / df.total_bill * 100 #打印出消費占比高於30%的人群 # print(df[df.pct>30]) # print(df[df.pct>30].index) #過濾異常數據 默認axis=0 行級刪除 df = df.drop('tip',axis=1) print(df) #計算小費占比分布 箱型圖 # df.pct.plot(kind='box',label='tips pct%') # plt.show() #調查推論消費占比是否和性別有關 # df[['pct','sex']].boxplot(by='sex') # plt.show() #調查推論,小費占比是否和工作日休息日有關 # df[['pct','day']].boxplot(by='day') #調查推論,小費占比是否和吸煙有關 # df[['pct','smoker']].boxplot(by='smoker') #按男女分組 df_m = df[df.sex=='Male'] df_f = df[df.sex=='Female'] df_m[['pct','smoker']].boxplot(by='smoker') df_f[['pct','smoker']].boxplot(by='smoker') #查詢消費比例與用餐時段關系 # df[['pct','time']].boxplot(by='time') plt.show()