pandas批量處理數據
1.Excel表的拼接
這里為了方便就采用jupyter進行編輯操作了,不熟悉jupyter的朋友出門左轉!
數據的話先放到目錄下,當然也可以絕對路徑引用,這都是小事,只要你知道自己的數據存放在哪就行!
我這里有三個數據表,都是網上找的,侵刪!
將三張表中的數據分別導入到三個變量當中,可以輸出查看下數據格式!
import pandas as pd
# 導入數據
data1 = pd.read_excel("python導學課數據/用戶購買數據/用戶購買信息數據1.xlsx")
data2 = pd.read_excel("python導學課數據/用戶購買數據/用戶購買信息數據2.xlsx")
data3 = pd.read_excel("python導學課數據/用戶購買數據/用戶購買信息數據3.xlsx")
看一下是不是很漂亮的數據!注意圈出來的部分叫作index,是pandas添加的,后續操作的時候會涉及,這里埋個伏筆!
數據導入后就需要進行合並了,這里用到的就是concat拼接函數!注意使用規范!不行就安排上游標卡尺!
# 數據拼接
data = pd.concat([data1, data2, data3])
合並后的數據這里就不展示了,篇幅有限!需要注意的是,這里是以行進行拼接,所以列數應該保持一致,要不然可拼不上!!!
拼接完成之后就是Excel輸出了,用到的操作是啥您老自己看吧!!!
# Excel格式輸出
data.to_excel("總表.xlsx", index = None)
需要注意的是,這里涉及到了之前提及的index,這里設置導出不需要index!!!至於目錄的話,我這里是當前目錄,就直接輸出了!這里展示下輸出結果,也沒啥技術含量!
至此,Excel的導入及表的拼接就完成了!
2.數據的操作
拼接不是目的,數據的操作才是硬道理,所以接下來我們介紹下數據的處理!
數據列的提取,直接上代碼!
data["商品價格水平"]
這樣就可以將“商品價格水平”這一列數據提取出來了!結果如下
接下來我們看下這一列數據中的數值分布情況,代碼如下
data["商品價格水平"].value_counts()
看到了吧,這樣的話就得到了"商品價格水平"的不同取值情況!
當然也可以得到數據的其他分布情況,比如均值
data["商品價格水平"].mean()
求最大值
data["商品價格水平"].max()
求最小值
data["商品價格水平"].min()