pandas 讀取excel文件對數據簡單清洗並用matplotlib 將數據展示


 

首先我們看下數據

 

接下來數據分析操作

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

if __name__ == "__main__":
    #讀取數據
    df = pd.read_excel('tips.xlsx','sheet1')
    # print(df)

    #繪制散點圖 證明推論,消費隨着總賬單的遞增而遞增
    # df.plot(kind='scatter',x='tip',y='total_bill',color='red',label='bill_tip')
    # plt.show()

    #計算消費占總帳單的百分比 .
    df['pct'] = df.tip / df.total_bill * 100
    
    #打印出消費占比高於30%的人群
    # print(df[df.pct>30])
    # print(df[df.pct>30].index)
    
    #過濾異常數據   默認axis=0 行級刪除
    df = df.drop('tip',axis=1)
    print(df)
    

    #計算小費占比分布  箱型圖
    # df.pct.plot(kind='box',label='tips pct%')
    # plt.show()

    #調查推論消費占比是否和性別有關
    # df[['pct','sex']].boxplot(by='sex')
    # plt.show()

    #調查推論,小費占比是否和工作日休息日有關
    # df[['pct','day']].boxplot(by='day')
    
    #調查推論,小費占比是否和吸煙有關
    # df[['pct','smoker']].boxplot(by='smoker')
   
    #按男女分組
    df_m = df[df.sex=='Male']
    df_f = df[df.sex=='Female']
    df_m[['pct','smoker']].boxplot(by='smoker')
    df_f[['pct','smoker']].boxplot(by='smoker')    

    #查詢消費比例與用餐時段關系
    # df[['pct','time']].boxplot(by='time')
    plt.show()

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM