讀取csv文件數據信息,對數據進行分析
一、任務內容
1、輸出數據集的基本信息
2、統計缺失的變量和樣本個數
3、通過箱式圖判斷異常點
二、實現任務內容及其代碼
1、輸出數據集的基本信息
代碼:
import pandas as pd import numpy as np import matplotlib.pyplot as plt data=pd.read_csv("C:\\Users\\Administrator\\Desktop\\catering_sale.csv") #導入csv文件信息 print(data.describe()) #輸出讀取文件的基本信息
執行結果:
由圖可知:數據的樣本個數,平均值,最大值,最小值的信息
2、統計缺失的變量和樣本個數
代碼:
num=0 print("缺失值個數(日期):",data['日期'].isnull().sum()) print("缺失值個數(銷量):",data['銷量'].isnull().sum()) for i in data['日期']: num=num+1 print("樣本個數:",num)
執行結果:
由圖可知:日期、銷量的缺失值個數,樣本的個數
3、通過箱式圖判斷異常點
代碼:
ata.dropna(axis=0, how='any') #刪除確實值的行 plt.rcParams['font.sans-serif'] = ['SimHei'] #顯示正常中文標簽 plt.rcParams['axes.unicode_minus'] = False #顯示正常正負號 plt.figure() p = data.boxplot(return_type='dict') #畫箱線圖 x = p['fliers'][0].get_xdata() # 'flies'即為異常值的標簽 y = p['fliers'][0].get_ydata() y.sort() for i in range(len(x)): if i>0: plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i])) else: plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i])) plt.show() #展示箱線圖
運行結果: