读取csv文件数据信息,对数据进行分析


读取csv文件数据信息,对数据进行分析

一、任务内容

1、输出数据集的基本信息

2、统计缺失的变量和样本个数

3、通过箱式图判断异常点

 

二、实现任务内容及其代码

1、输出数据集的基本信息

代码:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data=pd.read_csv("C:\\Users\\Administrator\\Desktop\\catering_sale.csv") #导入csv文件信息
print(data.describe()) #输出读取文件的基本信息

 

 执行结果:

由图可知:数据的样本个数,平均值,最大值,最小值的信息

 

2、统计缺失的变量和样本个数

代码:

num=0
print("缺失值个数(日期):",data['日期'].isnull().sum())
print("缺失值个数(销量):",data['销量'].isnull().sum())
for i in data['日期']:
    num=num+1
print("样本个数:",num)

执行结果:

由图可知:日期、销量的缺失值个数,样本的个数

 

3、通过箱式图判断异常点

代码:

ata.dropna(axis=0, how='any') #删除确实值的行

plt.rcParams['font.sans-serif'] = ['SimHei']  #显示正常中文标签
plt.rcParams['axes.unicode_minus'] = False #显示正常正负号
plt.figure()

p = data.boxplot(return_type='dict') #画箱线图
x = p['fliers'][0].get_xdata() # 'flies'即为异常值的标签
y = p['fliers'][0].get_ydata()
y.sort() 
for i in range(len(x)):
    if i>0:
        plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))
    else:
        plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))
plt.show() #展示箱线图

运行结果:

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM