一. 文件的讀取

本文轉載自查看原文 2017-08-28 17:04 1144 Pandas筆記

csv類型讀取

命令：pd.read_csv()
常用參數：

path
文件路徑，可以是網絡數據
encoding
指定編碼。
pd.read_csv('example.csv', encoding='gb2312')
sep
指定行中各字段的分隔符，使用read_csv()時，默認就是逗號。
header
指定哪一行作為列索引，默認是0，即第一行。
當你指定None時，pandas會默認給出數字索引。
需要注意的是，如果指定了非第一行，那么你所指定的這一行之前的數據將被忽略
pd.read_csv('example.csv', header=None, encoding='gb2312')
index_col
指定哪一列作為行索引，pandas默認的行索引是從0開始一直向下遞增，但是可以指定某一列作為行的索引，這里的指定可以是數字形式，也可以具體給出列的名稱。
```
pd.read_csv('example.csv', index_col=0)  # 指定第0列
pd.read_csv('example.csv', index_col='company')  # 指定'company'列作為索引
```
names
自己添加列索引，是一個列表形式。
pd.read_csv('example.csv', names=['公司','職位', '薪資', '地點'])
如果原始數據已經帶有索引，而你想要重新自定義一個索引，可以添加一個header=0參數，意思就是使用names這個新的索引，代替原來的索引。
parse_dates
將某一列轉換成日期格式
skiprows
指定忽略的行數或者需要跳過的行號。
如果是一個數字，則第0行開始，忽略前面的那些行，如果是一個列表，則會忽略具體的某些行。
na_values
如果na_values后面跟一個列表，列表中出現的數據將會變成NaN。
如果na_values后面跟一個字典，字典的鍵是列名，值是你想變成Nan的數據。
comment
將注釋信息從行尾拆分出去的字符。（一個或多個）
nrows
讀取的行數。（從文件開始處算起）
thousands
指定千位分隔符，如','。
chunksize
文件塊的大小，在逐塊讀取文件時使用
pd.read_csv('example.csv', chunksize=10)
iterator
返回一個TextParser以便逐塊讀取文件。

excel類型讀取

命令：pd.read_excel()
參數：

sheet_name
指定excel的工作表
converters
將單元格進行轉換，可以使用函數。

csv類型寫入

命令：df.to_csv()
參數：

index
默認情況下，會將index索引一起寫入，但是可以指定參數，index=False來取消寫入索引。
header
指定為False將不會寫入columns索引
columns
可以用columns=[]來指定寫入的列。

excel類型寫入

命令：pd.to_excel()
參數：

sheet_name
指定excel的工作表
index
為False時，則不寫入index索引
startrow
指定從excel的第幾行開始，這里指的是excel工作表第幾行，而不是我們的df數據。比如，startrow=1，那么打開excel你會發現，開始的行是2。
startcol
同上，這里是列，比如startcol=1，那么excel將會從B列開始寫。
將兩個DataFrame寫入同一個excel文件的兩個不同的sheet，方法如下

with pd.ExcelWriter('Excelname.xlsx') as writer:
    df1.to_excel(writer, sheet_name='sheet1')
    df2.to_excel(writer, sheet_name='sheet2')

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 pandas 文件讀取和分塊讀取 pyspark之從HDFS上讀取文件、從本地讀取文件 Groovy讀取文件信息 python按行讀取文件 Spark讀取文件 flash讀取XML文件 xps文件的讀取 rust 讀取文件 Java讀取csv文件 python讀取pdf文件