读取csv文件数据信息,对数据进行分析
一、任务内容
1、输出数据集的基本信息
2、统计缺失的变量和样本个数
3、通过箱式图判断异常点
二、实现任务内容及其代码
1、输出数据集的基本信息
代码:
import pandas as pd import numpy as np import matplotlib.pyplot as plt data=pd.read_csv("C:\\Users\\Administrator\\Desktop\\catering_sale.csv") #导入csv文件信息 print(data.describe()) #输出读取文件的基本信息
执行结果:
由图可知:数据的样本个数,平均值,最大值,最小值的信息
2、统计缺失的变量和样本个数
代码:
num=0 print("缺失值个数(日期):",data['日期'].isnull().sum()) print("缺失值个数(销量):",data['销量'].isnull().sum()) for i in data['日期']: num=num+1 print("样本个数:",num)
执行结果:
由图可知:日期、销量的缺失值个数,样本的个数
3、通过箱式图判断异常点
代码:
ata.dropna(axis=0, how='any') #删除确实值的行 plt.rcParams['font.sans-serif'] = ['SimHei'] #显示正常中文标签 plt.rcParams['axes.unicode_minus'] = False #显示正常正负号 plt.figure() p = data.boxplot(return_type='dict') #画箱线图 x = p['fliers'][0].get_xdata() # 'flies'即为异常值的标签 y = p['fliers'][0].get_ydata() y.sort() for i in range(len(x)): if i>0: plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i])) else: plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i])) plt.show() #展示箱线图
运行结果: