pandas批量处理数据
1.Excel表的拼接
这里为了方便就采用jupyter进行编辑操作了,不熟悉jupyter的朋友出门左转!
数据的话先放到目录下,当然也可以绝对路径引用,这都是小事,只要你知道自己的数据存放在哪就行!
我这里有三个数据表,都是网上找的,侵删!
将三张表中的数据分别导入到三个变量当中,可以输出查看下数据格式!
import pandas as pd
# 导入数据
data1 = pd.read_excel("python导学课数据/用户购买数据/用户购买信息数据1.xlsx")
data2 = pd.read_excel("python导学课数据/用户购买数据/用户购买信息数据2.xlsx")
data3 = pd.read_excel("python导学课数据/用户购买数据/用户购买信息数据3.xlsx")
看一下是不是很漂亮的数据!注意圈出来的部分叫作index,是pandas添加的,后续操作的时候会涉及,这里埋个伏笔!
数据导入后就需要进行合并了,这里用到的就是concat拼接函数!注意使用规范!不行就安排上游标卡尺!
# 数据拼接
data = pd.concat([data1, data2, data3])
合并后的数据这里就不展示了,篇幅有限!需要注意的是,这里是以行进行拼接,所以列数应该保持一致,要不然可拼不上!!!
拼接完成之后就是Excel输出了,用到的操作是啥您老自己看吧!!!
# Excel格式输出
data.to_excel("总表.xlsx", index = None)
需要注意的是,这里涉及到了之前提及的index,这里设置导出不需要index!!!至于目录的话,我这里是当前目录,就直接输出了!这里展示下输出结果,也没啥技术含量!
至此,Excel的导入及表的拼接就完成了!
2.数据的操作
拼接不是目的,数据的操作才是硬道理,所以接下来我们介绍下数据的处理!
数据列的提取,直接上代码!
data["商品价格水平"]
这样就可以将“商品价格水平”这一列数据提取出来了!结果如下
接下来我们看下这一列数据中的数值分布情况,代码如下
data["商品价格水平"].value_counts()
看到了吧,这样的话就得到了"商品价格水平"的不同取值情况!
当然也可以得到数据的其他分布情况,比如均值
data["商品价格水平"].mean()
求最大值
data["商品价格水平"].max()
求最小值
data["商品价格水平"].min()