# -*- encoding: utf-8 -*-
# -*- coding: gbk -*-
"""
@File : 文件操作.py
@Date : 2019/8/7
@Time : 18:54
@Author : W M
@Software: PyCharm
"""
# CSV文件的读取和写入
# 读取CSV文件的第一种方法
import pandas as pd
df=pd.read_csv('222.csv',encoding="utf-8")
print(df.head()) #head()默认展示前5行
print("\n")
print("df总共有"+str(len(df)) + "行记录")
print("\n")
#数据框
print("#指定序号作为index")
# 序号指定为index
df1=pd.read_csv('222.csv',encoding='utf-8',index_col='序号') #指定序号作为index
print(df1.head())
print("\n")
print("df1总共有"+str(len(df1)) + "行记录")
print("\n")
print("#指定显示前3行数据\n")
df2=pd.read_csv('222.csv',encoding='utf-8',index_col='序号',nrows=3) #指定显示前3行数据
print(df2)
print("\n")
# 读取CSV文件的第二种方法
df3=pd.read_table('222.csv',encoding='utf-8',sep=',') # sep=',' 指定分隔符为英文逗号,tab则为\t
print(df3.head())
# 如果只有数字,没有表头
print("\n")
df4=pd.read_csv('111.csv',encoding='utf-8',header=None) #header默认无表头
print(df4.head())
#自定义指定表头名称
mynames=['一','二','三','四','五','六','七','八','九']
df5=pd.read_csv('111.csv',encoding='utf-8',header=None,names=mynames) #header默认无表头
print(df5.head())
##导出到csv文件
df1.to_csv('mydata.csv',encoding='gbk')
# 追加写入
df4.to_csv('mydata.csv',encoding='utf-8',mode='a')
print("\n")
# 读取CSV文件的第三种方法
import csv
from datetime import datetime
from matplotlib import pyplot as plt
'''导入模块csv以打开CSV格式的文件'''
filename = 'sitka_weather_2014.csv'
with open(filename) as f:
reader = csv.reader(f)
header_row = next(reader)
print(header_row)
##Excel文件读取和写入
##-------------------------------------------------------------------------------------------
##-------------------------------------------------------------------------------------------
# 操作Excel的第一种方法:openpyxl
print("\n#openpyxl读取Excel的第一种方法")
#pip3 install openpyxl
import openpyxl
workbook=openpyxl.load_workbook('ceshi.xlsx')
worksheet=workbook.get_sheet_by_name('Sheet2')
row3=[item.value for item in list(worksheet.rows)[2]]
print("第三行的值:",row3) #第三行的值: ['sun', 18, '女', '1992-12']
print("\n")
col3=[item.value for item in list(worksheet.columns)[2]] #第三列的值
# for i in list(worksheet.columns): #列表有4列,分别是A1-A4、B1-B4、C1-C4、D1-D4
# print(i)
print("第三列的值:",col3)
print("\n")
cell_2_4=worksheet.cell(row=2,column=4).value
print("第2行第4列值:",cell_2_4) #1992-11
max_row=worksheet.max_row
print('最大行',max_row) #总共8行
# openpyxl写入excel
print("\n# openpyxl写入excel")
import openpyxl
workbook=openpyxl.Workbook() #W大写Workbook
sheet=workbook.active
sheet['A1']='wang,mm'
workbook.save('new.xlsx')
##-------------------------------------------------------------------------------------------
##-------------------------------------------------------------------------------------------
#操作Excel的第二种方法:xlrd和xlwt
print("\n#操作Excel的第三种方法:xlrd和xlwt")
# pip3 install xlwt
# 利用xlrd和xlwt进行excel读写(xlwt不支持xlsx,仅支持xls文件)
import xlrd #读取
book=xlrd.open_workbook('ceshi.xlsx')
sheet1=book.sheets()[0]
nrows=sheet1.nrows
print("表格总行数:",nrows) #18行
ncols = sheet1.ncols
print('表格总列数:',ncols)
row3_values = sheet1.row_values(2)
print('第3行值:',row3_values) #[2.0, 18203.0, 'dandelion-alipaymobile']
col3_values = sheet1.col_values(2)
print('第3列值',col3_values)
cell_3_3 = sheet1.cell(2,2).value
print('\n第3行第3列的单元格的值:',cell_3_3)
# xlwt写excel
print("\nxlwt写入excel")
import xlwt #写入 # 貌似不支持excel 2007的xlsx格式
workbook=xlwt.Workbook()
worksheet=workbook.add_sheet("test") #sheet名称为test
worksheet.write(0,0,'Aidata')
workbook.save('xlswrite.xls')
##-------------------------------------------------------------------------------------------
##-------------------------------------------------------------------------------------------
#excel文件和pandas的交互读写,读取主要使用到pandas中的两个个函数,一个是pd.ExcelFile()函数和pd.read_excel(),写入用的是to_excel()函数
#操作Excel的第三种方法:pandas
print("\n#操作Excel的第三种方法:pandas")
##pandas读取Excel的第一种方法--根据sheet页读取pd.ExcelFile()
xls_file=pd.ExcelFile('ceshi.xlsx') #加载读取Excel
print(xls_file.sheet_names) #显示出读入excel文件中的表名字
# ['Sheet1', 'Sheet2', 'Sheet3']
xls_data=xls_file.parse('Sheet2',index_col='姓名') #根据表名及列名为索引展示
print(xls_data.head()) #默认展示前5行
##pandas读取Excel的第二种方法--直接读取pd.read_excel()
#方式一:默认读取第一个表单
print("\n方式一:")
xls_data=pd.read_excel('ceshi.xlsx',index_col='序列') #index_col 分行编号
# #这个会直接默认读取到这个Excel的第一个表单
print(xls_data.head()) #默认读取前5行的数据
# print("输出:\n{0}".format(xls_data.head()))#格式化输出
#方式二:通过指定表单名的方式来读取
print("\n方式二:")
df=pd.read_excel('ceshi.xlsx',sheet_name='Sheet2')
data=df.head() #默认读取前5行的数据
print("获取到所有的值:\n{0}".format(data))#格式化输出
#方式三:通过表单索引来指定要访问的表单,0表示第一个表单
#也可以采用表单名和索引的双重方式来定位表单
#也可以同时定位多个表单,方式都罗列如下所示
print("\n方式三:")
# df=pd.read_excel('ceshi.xlsx',sheet_name=['Sheet1','Sheet2'])
#可以通过表单名同时指定多个--不推荐使用,效果不好
# df=pd.read_excel('ceshi.xlsx',sheet_name=['Sheet2',0])
#可以混合的方式来指定--不推荐使用,效果不好
# df=pd.read_excel('ceshi.xlsx',sheet_name=1)
#可以通过表单索引来指定读取的表单--列表形式
# df=pd.read_excel('ceshi.xlsx',sheet_name=[0,1])
#可以通过索引 同时指定多个--不推荐使用,效果不好
data=df.values #获取所有的数据,注意这里不能用head()方法哦~
print("获取到所有的值:\n{0}".format(data))#格式化输出
# 以上读取的数据是一个二维矩阵,不利于处理自动化测试,
# pandas操作Excel的行列
''' loc——通过行标签索引行数据
iloc——通过行号索引行数据 '''
print("\npandas操作Excel的行列")
# 1:读取指定的单行,数据会存在列表里面
df=pd.read_excel('ceshi.xlsx')
data1=df.loc[0].values #0表示第一行 这里读取数据并不包含表头,要注意哦!
print("读取指定的单行数据:\n{0}".format(data1))
print("\n2:读取指定的多行,数据会存在嵌套的列表里面:")
# 2:读取指定的多行,数据会存在嵌套的列表里面:
df=pd.read_excel('ceshi.xlsx')
data2=df.loc[[1,2]].values
print("读取指定的多行数据:\n{0}".format(data2))
print("\n3:读取指定的行列")
# 3:读取指定的行列:
df=pd.read_excel('ceshi.xlsx')
data3=df.iloc[1,2]
print("读取指定行列的数据:\n{0}".format(data3)) #dandelion-alipaymobile
# 4:读取指定的多行多列值:
print("\n4:读取指定的多行多列值:")
df=pd.read_excel('ceshi.xlsx',sheet_name='Sheet2')
data4=df.loc[[1,2],['姓名','年龄','性别']]
print("读取多行多列的数据:\n{0}".format(data4))
# 姓名 年龄 性别
# 1 sun 18 女
# 2 zhao 19 男
# 5:获取所有行的指定列
print("\n5:获取所有行的指定列")
df=pd.read_excel('ceshi.xlsx',sheet_name='Sheet2')
data5=df.loc[:,['姓名','年龄','性别']].values #得到的是嵌套列表
data6=df.loc[:,['姓名','年龄','性别']] #得到二维矩阵
print("获取所有行的指定列的数据:\n{0}".format(data5)) #得到的是嵌套列表
print("获取所有行的指定列的数据:\n{0}".format(data6)) #得到二维矩阵
# 6:获取行号并打印输出
print("\n6:获取行号并打印输出")
df=pd.read_excel('ceshi.xlsx',sheet_name='Sheet2')
print("输出行号列表:",df.index.values)
# 输出行号列表: [0 1 2 3 4 5 6]
# 7:获取列名并打印输出
print("\n7:获取列名并打印输出")
df=pd.read_excel('ceshi.xlsx',sheet_name='Sheet2')
print("输出标题:",df.columns.values)
# 输出标题: ['姓名' '年龄' '性别' '出生日期']
# 8:随机获取几行数的值:
print("\n8:获取指定行数的值:")
df=pd.read_excel('ceshi.xlsx',sheet_name='Sheet2')
print("输出值:\n",df.sample(3).values) #随机抽取3行查看,这个方法类似于head()方法以及df.values方法
# [['liu' 23 '女' '1995-05']
# ['wang' 17 '男' '1992-11']
# ['li' 20 '男' '1992-09']]
# 9:获取指定列的值:
print("\n9:获取指定列的值:")
df=pd.read_excel('ceshi.xlsx',sheet_name='Sheet2')
print("输出值:\n",df['姓名'].values)
# pandas处理Excel数据成为字典
print("\npandas处理Excel数据成为字典")
df=pd.read_excel('ceshi.xlsx',sheet_name="Sheet2")
test_data=[]
for i in df.index.values: #获取行号的索引,并对其进行遍历:
# 根据i来获取每一行指定的数据 并利用to_dict转成字典
row_data=df.loc[i,['姓名','年龄','性别','出生日期']].to_dict()
test_data.append(row_data)
print(test_data)
# [{'姓名': 'wang', '年龄': 17, '性别': '男', '出生日期': '1992-11'}, {'姓名': 'sun', '年龄': 18, '性别': '女', '出生日期': '1992-12'}, {'姓名': 'zhao', '年龄': 19, '性别': '男', '出生日期': '1993-01'}, {'姓名': 'zhang', '年龄': 22, '性别': '女', '出生日期': '1994-05'}, {'姓名': 'zhou', '年龄': 16, '性别': '女', '出生日期': '1992-07'}, {'姓名': 'liu', '年龄': 23, '性别': '女', '出生日期': '1995-05'}, {'姓名': 'li', '年龄': 20, '性别': '男', '出生日期': '1992-09'}]
print("\n")
##写入到Excel .to_excel()
xls_data.to_excel('my.xlsx')
#写入表格
read_excel = pd.ExcelWriter('data.xlsx')
xls_data.to_excel(read_excel,sheet_name='ceshi',index=True)
read_excel.save()