import numpy as np
import pandas as pd
數據表創建
通過外部文件導入數據表
df=pd.DataFrame(pd.read_csv('name.csv',header=1))
df=pd.DataFrame(pd.read_Excel('name.xlsx'))
通過填入數據生成數據表
df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
"date":pd.date_range('20130102', periods=6),
"city":['Beijing ', 'SH', ' guangzhou ', 'Shen
zhen', 'shanghai', 'BEIJING '],
"age":[23,44,54,32,34,32],
"category":['100-A','100-B','110-A','110-C','2
10-A','130-F'],
"price":[1200,np.nan,2133,5433,np.nan,4432]},
columns =['id','date','city','category','age',
'price'])
檢查數據表的維度:shape屬性
df.shape
結果輸出 (6,6)
查看數據表信息
df.info()
查看數據表數據格式:dtypes屬性
df.dtypes
空值檢查isnull()函數(非空False,空True)
df.isnull() #對整張數據表檢查
df['price'].isnull() #對price列進行檢查
查看某列數據唯一值:unique()函數
df['price'].unique()
查看列名稱:columns屬性
查看數據表數值:values屬性
查看前幾行數據:head()函數
df.head()
df.head(3)
查看后幾行數據:tail()函數
數據清洗
處理空值dropna()與fillna()
#刪除數據表中含有空值的行
df.dropna(how='any')
#使用price均值對price列NA進行填充
df['price'].fillna(df['price'].mean())
#使用數字0填充數據表中空值
df.fillna(value=0)
清理空格
#清除price字段中的字符空格
df['price']=df['price'].map(str.strip)
大小寫轉換
price列大小寫轉換
df['price']=df['price'].str.lower()
更改數據格式:astype()函數
#更改數據格式
df['price'].astype('int')
更改列名稱
#更改列名稱category列更改為category-size
df.rename(columns={'category': 'category-size'})
刪除列的重復值drop_duplicates()函數
#刪除后出現的重復值
df['price'].drop_duplicates()
數值修改以及替換
#數據替換
df['city'].replace('sh', 'shanghai')
數據預處理
數據表合並
#數據表df和df1匹配合並
df_inner=pd.merge(df,df1,how='inner')
df_left=pd.merge(df,df1,how='left')
df_right=pd.merge(df,df1,how='right')
df_outer=pd.merge(df,df1,how='outer')
設置索引列
#設置索引列
df_inner.set_index('id')
排序(按索引,按數值)
#按特定列的值排序
df_inner.sort_values(by=['age'])
#按索引列排序
df_inner.sort_index()
數據分組
#如果price列的值>3000,group列顯示high,否則顯示low
df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low
')
#對復合多個條件的數據進行分組標記
df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price']
>= 4000), 'sign']=1
數據分列
#對category字段的值依次進行分列,並創建數據表,索引值為df_inner的索引列,列
名稱為category和size
pd.DataFrame((x.split('-') for x in df_inner['category']),index=d
f_inner.index,columns=['category','size'])
#將完成分列后的數據表與原df_inner數據表進行匹配
df_inner=pd.merge(df_inner,split,right_index=True, left_index=Tru
e)
數據提取
按標簽提取(loc)
#按索引提取區域行數值
df_inner.loc[0:5]
df_inner.loc[5]
#重設索引
df_inner.reset_index()
#設置日期為索引
df_inner=df_inner.set_index('date')
#提取4日之前的所有數據
df_inner[:'2013-01-04']
按位置提取(iloc)
#使用iloc按位置區域提取數據
df_inner.iloc[:3,:2]
#iloc函數除了可以按區域提取數據,還可以按位置逐條提取,前
面方括號中的0,2,5表示數據所在行的位置,后面方括號中的數表示所
在列的位置。
#使用iloc按位置單獨提取數據
df_inner.iloc[[0,2,5],[4,5]]
按標簽和位置提取(ix)
#使用ix按索引標簽和位置混合提取數據
df_inner.ix[:'2013-01-03',:4]
按條件提取(區域和條件值)
#判斷city列的值是否為beijing
df_inner['city'].isin(['beijing'])
#先判斷city列里是否包含beijing和shanghai,然后將復合條件的數據提取出來。
df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]
數據篩選
按條件篩選(與、或、非)
Python中使用loc函數配合篩選條件來完成篩選功能。配
合sum和count函數還能實現Excel中sumif和countif函數的功能。
#使用“與”條件進行篩選
df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beiji
ng'), ['id','city','age','category','gender']]
#使用“或”條件篩選
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beiji
ng'), ['id','city','age','category','gender']].sort(['age'])
#對篩選后的數據按price字段進行求和
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beiji
ng'), ['id','city','age','category','gender','price']].sort(['age
']).price.sum()
#使用“非”條件進行篩選,並按id排序
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age',
'category','gender']].sort(['id'])
#對篩選后的數據按city列進行計數
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age',
'category','gender']].sort(['id']).city.count()
#使用query函數進行篩選
df_inner.query('city == ["beijing", "shanghai"]')
#對篩選后的結果按price進行求和
df_inner.query('city == ["beijing", "shanghai"]').price.sum()
12230
數據匯總
分類匯總
使用groupby函數進行分類匯總
#對所有列進行計數匯總
df_inner.groupby('city').count()
#對兩個字段進行匯總計數
df_inner.groupby(['city','size'])['id'].count()
#對city字段進行匯總並計算price的合計和均值。
df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])
數據透視
數據統計
數據采樣
描述統計
標准差
協方差
相關分析
數據輸出
寫入Excel
#輸出到Excel格式
df_inner.to_Excel('Excel_to_Python.xlsx', sheet_name='bluewhale_c
c')
寫入csv
#輸出到CSV格式
df_inner.to_csv('Excel_to_Python.csv')