pandas切片使用和column賦值


#-*- coding: utf-8 -*- 
#對數據進行基本的探索
#返回缺失值個數以及最大最小值

import pandas as pd

datafile= '../data/air_data.csv' #航空原始數據,第一行為屬性標簽
resultfile = '../tmp/explore.xls' #數據探索結果表

data = pd.read_csv(datafile, encoding = 'utf-8') #讀取原始數據,指定UTF-8編碼(需要用文本編輯器將數據裝換為UTF-8編碼)

explore = data.describe(percentiles = [], include = 'all').T #包括對數據的基本描述,percentiles參數是指定計算多少的分位數表
#(如1/4分位數、中位數等);T是轉置,轉置后更方便查閱
explore['null'] = len(data)-explore['count'] #describe()函數自動計算非空值數,需要手動計算空值數

explore = explore[['null', 'max', 'min']]
explore.columns = [u'空值數', u'最大值', u'最小值'] #表頭重命名
'''這里只選取部分探索結果。
describe()函數自動計算的字段有count(非空值數)、unique(唯一值數)、top(頻數最高者)、freq(最高頻數)、
mean(平均值)、std(方差)、min(最小值)、50%(中位數)、max(最大值)'''

explore.to_excel(resultfile) #導出結果

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM