使用python完成對excel的操作

本文轉載自查看原文 2020-04-07 12:04 599 Python

import numpy as np
import pandas as pd

數據表創建

通過外部文件導入數據表

df=pd.DataFrame(pd.read_csv('name.csv',header=1))
df=pd.DataFrame(pd.read_Excel('name.xlsx'))

通過填入數據生成數據表

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
 "date":pd.date_range('20130102', periods=6),
 "city":['Beijing ', 'SH', ' guangzhou ', 'Shen
zhen', 'shanghai', 'BEIJING '],
 "age":[23,44,54,32,34,32],
 "category":['100-A','100-B','110-A','110-C','2
10-A','130-F'],
 "price":[1200,np.nan,2133,5433,np.nan,4432]},
 columns =['id','date','city','category','age',
'price'])

檢查數據表的維度：shape屬性

df.shape

結果輸出 (6,6)

查看數據表信息

df.info()

查看數據表數據格式：dtypes屬性

df.dtypes

空值檢查isnull()函數（非空False,空True）

df.isnull() #對整張數據表檢查
df['price'].isnull() #對price列進行檢查

查看某列數據唯一值：unique()函數

df['price'].unique()

查看列名稱:columns屬性

查看數據表數值：values屬性

查看前幾行數據:head()函數

df.head()
df.head(3)

查看后幾行數據:tail()函數

數據清洗

處理空值dropna()與fillna()

#刪除數據表中含有空值的行
df.dropna(how='any')

#使用price均值對price列NA進行填充
df['price'].fillna(df['price'].mean())

#使用數字0填充數據表中空值
df.fillna(value=0)

清理空格

#清除price字段中的字符空格
df['price']=df['price'].map(str.strip)

大小寫轉換

price列大小寫轉換
df['price']=df['price'].str.lower()

更改數據格式:astype()函數

#更改數據格式
df['price'].astype('int')

更改列名稱

#更改列名稱category列更改為category-size
df.rename(columns={'category': 'category-size'})

刪除列的重復值drop_duplicates()函數

#刪除后出現的重復值
df['price'].drop_duplicates()

數值修改以及替換

#數據替換
df['city'].replace('sh', 'shanghai')

數據預處理

數據表合並

#數據表df和df1匹配合並
df_inner=pd.merge(df,df1,how='inner')
df_left=pd.merge(df,df1,how='left')
df_right=pd.merge(df,df1,how='right')
df_outer=pd.merge(df,df1,how='outer')

設置索引列

#設置索引列
df_inner.set_index('id')

排序（按索引，按數值）

#按特定列的值排序
df_inner.sort_values(by=['age'])
#按索引列排序
df_inner.sort_index()

數據分組

#如果price列的值>3000，group列顯示high，否則顯示low
df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low
')

#對復合多個條件的數據進行分組標記
df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price']
 >= 4000), 'sign']=1

數據分列

#對category字段的值依次進行分列，並創建數據表，索引值為df_inner的索引列，列
名稱為category和size
pd.DataFrame((x.split('-') for x in df_inner['category']),index=d
f_inner.index,columns=['category','size'])

#將完成分列后的數據表與原df_inner數據表進行匹配
df_inner=pd.merge(df_inner,split,right_index=True, left_index=Tru
e)

數據提取

按標簽提取(loc)

#按索引提取區域行數值
df_inner.loc[0:5]
df_inner.loc[5]

#重設索引
df_inner.reset_index()
#設置日期為索引
df_inner=df_inner.set_index('date')

#提取4日之前的所有數據
df_inner[:'2013-01-04']

按位置提取(iloc)

#使用iloc按位置區域提取數據
df_inner.iloc[:3,:2]
#iloc函數除了可以按區域提取數據，還可以按位置逐條提取，前
面方括號中的0,2,5表示數據所在行的位置，后面方括號中的數表示所
在列的位置。
#使用iloc按位置單獨提取數據
df_inner.iloc[[0,2,5],[4,5]]

按標簽和位置提取(ix)

#使用ix按索引標簽和位置混合提取數據
df_inner.ix[:'2013-01-03',:4]

按條件提取（區域和條件值）

#判斷city列的值是否為beijing
df_inner['city'].isin(['beijing'])

#先判斷city列里是否包含beijing和shanghai，然后將復合條件的數據提取出來。
df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]

數據篩選

按條件篩選（與、或、非）

Python中使用loc函數配合篩選條件來完成篩選功能。配
合sum和count函數還能實現Excel中sumif和countif函數的功能。

#使用“與”條件進行篩選
df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beiji
ng'), ['id','city','age','category','gender']]

#使用“或”條件篩選
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beiji
ng'), ['id','city','age','category','gender']].sort(['age'])

#對篩選后的數據按price字段進行求和
df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beiji
ng'), ['id','city','age','category','gender','price']].sort(['age
']).price.sum()

#使用“非”條件進行篩選,並按id排序
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age',
'category','gender']].sort(['id'])

#對篩選后的數據按city列進行計數
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age',
'category','gender']].sort(['id']).city.count()

#使用query函數進行篩選
df_inner.query('city == ["beijing", "shanghai"]')

#對篩選后的結果按price進行求和
df_inner.query('city == ["beijing", "shanghai"]').price.sum()
12230

數據匯總

分類匯總

使用groupby函數進行分類匯總

#對所有列進行計數匯總
df_inner.groupby('city').count()

#對兩個字段進行匯總計數
df_inner.groupby(['city','size'])['id'].count()

#對city字段進行匯總並計算price的合計和均值。
df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])

數據透視

數據統計

數據采樣

描述統計

標准差

協方差

數據輸出

寫入Excel

#輸出到Excel格式
df_inner.to_Excel('Excel_to_Python.xlsx', sheet_name='bluewhale_c
c')

寫入csv

#輸出到CSV格式
df_inner.to_csv('Excel_to_Python.csv')

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python 使用pandas,完成對excel的操作：遍歷，求偏度（skew）的小程序使用字符流（Writer、Reader）完成對文件的讀寫操作使用Lua CJSON庫進行encode與decode操作完成對Json數據轉化使用Python操作Excel 使用Python操作Excel文檔（一）使用Python操作excel文件使用Zookeeper完成對數據庫配置的管理 QuickWebApi：使用Lambada方式，完成對WebApi的開發和調用。使用 Libpng 配合 GDI 完成對 png 圖片的解析與顯示【WebService】使用jaxb完成對象和xml的轉換

使用python完成對excel的操作

數據表創建

通過外部文件導入數據表

通過填入數據生成數據表

檢查數據表的維度：shape屬性

查看數據表信息

查看數據表數據格式：dtypes屬性

空值檢查isnull()函數（非空False,空True）

查看某列數據唯一值：unique()函數

查看列名稱:columns屬性

查看數據表數值：values屬性

查看前幾行數據:head()函數

查看后幾行數據:tail()函數

數據清洗

處理空值dropna()與fillna()

清理空格

大小寫轉換

更改數據格式:astype()函數

更改列名稱

刪除列的重復值drop_duplicates()函數

數值修改以及替換

數據預處理

數據表合並

設置索引列

排序（按索引，按數值）

數據分組

數據分列

數據提取

按標簽提取(loc)

按位置提取(iloc)

按標簽和位置提取(ix)

按條件提取（區域和條件值）

數據篩選

按條件篩選（與、或、非）

數據匯總

分類匯總

數據透視

數據統計

數據采樣

描述統計

標准差

協方差

相關分析

數據輸出

寫入Excel

寫入csv

免責聲明！