使用python完成對excel的操作


import numpy as np
import pandas as pd

數據表創建

通過外部文件導入數據表

df=pd.DataFrame(pd.read_csv('name.csv',header=1))
df=pd.DataFrame(pd.read_Excel('name.xlsx'))

通過填入數據生成數據表

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
 "date":pd.date_range('20130102', periods=6),
 "city":['Beijing ', 'SH', ' guangzhou ', 'Shen
zhen', 'shanghai', 'BEIJING '],
 "age":[23,44,54,32,34,32],
 "category":['100-A','100-B','110-A','110-C','2
10-A','130-F'],
 "price":[1200,np.nan,2133,5433,np.nan,4432]},
 columns =['id','date','city','category','age',
'price'])

檢查數據表的維度:shape屬性

df.shape

結果輸出 (6,6)

查看數據表信息

df.info()

查看數據表數據格式:dtypes屬性

df.dtypes

空值檢查isnull()函數(非空False,空True)

df.isnull() #對整張數據表檢查
df['price'].isnull() #對price列進行檢查

查看某列數據唯一值:unique()函數

df['price'].unique()

查看列名稱:columns屬性

查看數據表數值:values屬性

查看前幾行數據:head()函數

df.head()
df.head(3)

查看后幾行數據:tail()函數

數據清洗

處理空值dropna()與fillna()

#刪除數據表中含有空值的行
df.dropna(how='any')

#使用price均值對price列NA進行填充
df['price'].fillna(df['price'].mean())

#使用數字0填充數據表中空值
df.fillna(value=0)

清理空格

#清除price字段中的字符空格
df['price']=df['price'].map(str.strip)

大小寫轉換

price列大小寫轉換
df['price']=df['price'].str.lower()

更改數據格式:astype()函數

#更改數據格式
df['price'].astype('int')

更改列名稱

#更改列名稱category列更改為category-size
df.rename(columns={'category': 'category-size'})

刪除列的重復值drop_duplicates()函數

#刪除后出現的重復值
df['price'].drop_duplicates()

數值修改以及替換

#數據替換
df['city'].replace('sh', 'shanghai')

數據預處理

數據表合並

#數據表df和df1匹配合並
df_inner=pd.merge(df,df1,how='inner')
df_left=pd.merge(df,df1,how='left')
df_right=pd.merge(df,df1,how='right')
df_outer=pd.merge(df,df1,how='outer')

設置索引列

#設置索引列
df_inner.set_index('id')

排序(按索引,按數值)

#按特定列的值排序
df_inner.sort_values(by=['age'])
#按索引列排序
df_inner.sort_index()

數據分組

#如果price列的值>3000,group列顯示high,否則顯示low
df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low
')

#對復合多個條件的數據進行分組標記
df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price']
 >= 4000), 'sign']=1

數據分列

#對category字段的值依次進行分列,並創建數據表,索引值為df_inner的索引列,列
名稱為category和size
pd.DataFrame((x.split('-') for x in df_inner['category']),index=d
f_inner.index,columns=['category','size'])

#將完成分列后的數據表與原df_inner數據表進行匹配
df_inner=pd.merge(df_inner,split,right_index=True, left_index=Tru
e)

數據提取

按標簽提取(loc)

#按索引提取區域行數值
df_inner.loc[0:5]
df_inner.loc[5]

#重設索引
df_inner.reset_index()
#設置日期為索引
df_inner=df_inner.set_index('date')

#提取4日之前的所有數據
df_inner[:'2013-01-04']

按位置提取(iloc)

#使用iloc按位置區域提取數據
df_inner.iloc[:3,:2]
#iloc函數除了可以按區域提取數據,還可以按位置逐條提取,前
面方括號中的0,2,5表示數據所在行的位置,后面方括號中的數表示所
在列的位置。
#使用iloc按位置單獨提取數據
df_inner.iloc[[0,2,5],[4,5]]

按標簽和位置提取(ix)

#使用ix按索引標簽和位置混合提取數據
df_inner.ix[:'2013-01-03',:4]

按條件提取(區域和條件值)

#判斷city列的值是否為beijing
df_inner['city'].isin(['beijing'])

#先判斷city列里是否包含beijing和shanghai,然后將復合條件的數據提取出來。
df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]

數據篩選

按條件篩選(與、或、非)

Python中使用loc函數配合篩選條件來完成篩選功能。配
合sum和count函數還能實現Excel中sumif和countif函數的功能。

#使用“與”條件進行篩選
df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beiji
ng'), ['id','city','age','category','gender']]

#使用“或”條件篩選
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beiji
ng'), ['id','city','age','category','gender']].sort(['age'])

#對篩選后的數據按price字段進行求和
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beiji
ng'), ['id','city','age','category','gender','price']].sort(['age
']).price.sum()

#使用“非”條件進行篩選,並按id排序
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age',
'category','gender']].sort(['id'])

#對篩選后的數據按city列進行計數
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age',
'category','gender']].sort(['id']).city.count()

#使用query函數進行篩選
df_inner.query('city == ["beijing", "shanghai"]')

#對篩選后的結果按price進行求和
df_inner.query('city == ["beijing", "shanghai"]').price.sum()
12230

數據匯總

分類匯總

使用groupby函數進行分類匯總

#對所有列進行計數匯總
df_inner.groupby('city').count()

#對兩個字段進行匯總計數
df_inner.groupby(['city','size'])['id'].count()

#對city字段進行匯總並計算price的合計和均值。
df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])

數據透視

數據統計

數據采樣

描述統計

標准差

協方差

相關分析

數據輸出

寫入Excel

#輸出到Excel格式
df_inner.to_Excel('Excel_to_Python.xlsx', sheet_name='bluewhale_c
c')

寫入csv

#輸出到CSV格式
df_inner.to_csv('Excel_to_Python.csv')


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM