讀取csv文件數據信息,對數據進行分析


讀取csv文件數據信息,對數據進行分析

一、任務內容

1、輸出數據集的基本信息

2、統計缺失的變量和樣本個數

3、通過箱式圖判斷異常點

 

二、實現任務內容及其代碼

1、輸出數據集的基本信息

代碼:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data=pd.read_csv("C:\\Users\\Administrator\\Desktop\\catering_sale.csv") #導入csv文件信息
print(data.describe()) #輸出讀取文件的基本信息

 

 執行結果:

由圖可知:數據的樣本個數,平均值,最大值,最小值的信息

 

2、統計缺失的變量和樣本個數

代碼:

num=0
print("缺失值個數(日期):",data['日期'].isnull().sum())
print("缺失值個數(銷量):",data['銷量'].isnull().sum())
for i in data['日期']:
    num=num+1
print("樣本個數:",num)

執行結果:

由圖可知:日期、銷量的缺失值個數,樣本的個數

 

3、通過箱式圖判斷異常點

代碼:

ata.dropna(axis=0, how='any') #刪除確實值的行

plt.rcParams['font.sans-serif'] = ['SimHei']  #顯示正常中文標簽
plt.rcParams['axes.unicode_minus'] = False #顯示正常正負號
plt.figure()

p = data.boxplot(return_type='dict') #畫箱線圖
x = p['fliers'][0].get_xdata() # 'flies'即為異常值的標簽
y = p['fliers'][0].get_ydata()
y.sort() 
for i in range(len(x)):
    if i>0:
        plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))
    else:
        plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))
plt.show() #展示箱線圖

運行結果:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM