pandas批量處理數據


pandas批量處理數據

1.Excel表的拼接

這里為了方便就采用jupyter進行編輯操作了,不熟悉jupyter的朋友出門左轉!

數據的話先放到目錄下,當然也可以絕對路徑引用,這都是小事,只要你知道自己的數據存放在哪就行!

接下來上干貨!首先導入需要用到的pandas庫,python的精髓不就是調包嘛!!!

我這里有三個數據表,都是網上找的,侵刪!

將三張表中的數據分別導入到三個變量當中,可以輸出查看下數據格式!

import pandas as pd 
# 導入數據
data1 = pd.read_excel("python導學課數據/用戶購買數據/用戶購買信息數據1.xlsx")
data2 = pd.read_excel("python導學課數據/用戶購買數據/用戶購買信息數據2.xlsx")
data3 = pd.read_excel("python導學課數據/用戶購買數據/用戶購買信息數據3.xlsx")

看一下是不是很漂亮的數據!注意圈出來的部分叫作index,是pandas添加的,后續操作的時候會涉及,這里埋個伏筆!

 

 

 

 

數據導入后就需要進行合並了,這里用到的就是concat拼接函數!注意使用規范!不行就安排上游標卡尺!

# 數據拼接
data = pd.concat([data1, data2, data3])

合並后的數據這里就不展示了,篇幅有限!需要注意的是,這里是以行進行拼接,所以列數應該保持一致,要不然可拼不上!!!

拼接完成之后就是Excel輸出了,用到的操作是啥您老自己看吧!!!

# Excel格式輸出
data.to_excel("總表.xlsx", index = None)

需要注意的是,這里涉及到了之前提及的index,這里設置導出不需要index!!!至於目錄的話,我這里是當前目錄,就直接輸出了!這里展示下輸出結果,也沒啥技術含量!

 

至此,Excel的導入及表的拼接就完成了!

2.數據的操作

拼接不是目的,數據的操作才是硬道理,所以接下來我們介紹下數據的處理!

數據列的提取,直接上代碼!

data["商品價格水平"]

這樣就可以將“商品價格水平”這一列數據提取出來了!結果如下

 

接下來我們看下這一列數據中的數值分布情況,代碼如下

data["商品價格水平"].value_counts()

看到了吧,這樣的話就得到了"商品價格水平"的不同取值情況!

 

當然也可以得到數據的其他分布情況,比如均值

data["商品價格水平"].mean()

 

求最大值

data["商品價格水平"].max()

 

求最小值

data["商品價格水平"].min()

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM