數據異常值分析和處理


首先運用的是pandas數據分析模塊和matplotlib數據繪圖模塊

下面簡單處理和操作

import pandas as pd #使用pandas讀取數據
import matplotlib.pyplot as pl#導入圖像庫
url="D:\python數據挖掘\圖書配套數據、代碼\chapter3\demo\data\catering_sale.xls"#需要讀取的數據路徑
date=pd.read_excel(url,index_col=u'日期')#讀取數據,指定日期的索引列
pl.rcParams['font.sans-serif']=['SimHei']#用來正常顯示中文標簽
pl.rcParams['axes.unicode_minus']=False#用來正常顯示負號
pl.figure()#建立圖像
p=date.boxplot(return_type='dict')#畫箱線圖,直接使用DataFrame的方法
#特別是boxplot 里必須添加需要的類型
x=p['fliers'][0].get_xdata()#'fliers'即為異常值標簽
y=p['fliers'][0].get_ydata()
y.sort()#從小到大排序

#用annotate添加注釋
#其中有些相近的點,注解會出現重疊,難以看清,需要一些技巧來控制
#以下參數都是經過調試的,需要具體問題具體調試
for i in range(len(x)):
if i>0:
pl.annotate(y[i],xy=(x[i],y[i]),xytext=(x[i]+0.05-0.8/(y[i]-y[i-1]),y[i]))
else:
pl.annotate(y[i],xy=(x[i],y[i]),xytext=(x[i]+0.08,y[i]))
pl.show()#展現箱鮮圖


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM