#-*- coding: utf-8 -*- #對數據進行基本的探索 #返回缺失值個數以及最大最小值 import pandas as pd datafile= '../data/air_data.csv' #航空原始數據,第一行為屬性標簽 resultfile = '../tmp/explore.xls' #數據探索結果表 data = pd.read_csv(datafile, encoding = 'utf-8') #讀取原始數據,指定UTF-8編碼(需要用文本編輯器將數據裝換為UTF-8編碼) explore = data.describe(percentiles = [], include = 'all').T #包括對數據的基本描述,percentiles參數是指定計算多少的分位數表 #(如1/4分位數、中位數等);T是轉置,轉置后更方便查閱 explore['null'] = len(data)-explore['count'] #describe()函數自動計算非空值數,需要手動計算空值數 explore = explore[['null', 'max', 'min']] explore.columns = [u'空值數', u'最大值', u'最小值'] #表頭重命名 '''這里只選取部分探索結果。 describe()函數自動計算的字段有count(非空值數)、unique(唯一值數)、top(頻數最高者)、freq(最高頻數)、 mean(平均值)、std(方差)、min(最小值)、50%(中位數)、max(最大值)''' explore.to_excel(resultfile) #導出結果
