csv類型讀取
命令:pd.read_csv()
常用參數:
-
path
文件路徑,可以是網絡數據 -
encoding
指定編碼。
pd.read_csv('example.csv', encoding='gb2312')
-
sep
指定行中各字段的分隔符,使用read_csv()時,默認就是逗號。 -
header
指定哪一行作為列索引,默認是0,即第一行。
當你指定None時,pandas會默認給出數字索引。
需要注意的是,如果指定了非第一行,那么你所指定的這一行之前的數據將被忽略
pd.read_csv('example.csv', header=None, encoding='gb2312')
-
index_col
指定哪一列作為行索引,pandas默認的行索引是從0開始一直向下遞增,但是可以指定某一列作為行的索引,這里的指定可以是數字形式,也可以具體給出列的名稱。pd.read_csv('example.csv', index_col=0) # 指定第0列 pd.read_csv('example.csv', index_col='company') # 指定'company'列作為索引
-
names
自己添加列索引,是一個列表形式。
pd.read_csv('example.csv', names=['公司','職位', '薪資', '地點'])
如果原始數據已經帶有索引,而你想要重新自定義一個索引,可以添加一個header=0
參數, 意思就是使用names這個新的索引,代替原來的索引。 -
parse_dates
將某一列轉換成日期格式 -
skiprows
指定忽略的行數或者需要跳過的行號。
如果是一個數字,則第0行開始,忽略前面的那些行,如果是一個列表,則會忽略具體的某些行。 -
na_values
如果na_values后面跟一個列表,列表中出現的數據將會變成NaN。
如果na_values后面跟一個字典,字典的鍵是列名,值是你想變成Nan的數據。 -
comment
將注釋信息從行尾拆分出去的字符。(一個或多個) -
nrows
讀取的行數。(從文件開始處算起) -
thousands
指定千位分隔符,如','。 -
chunksize
文件塊的大小,在逐塊讀取文件時使用
pd.read_csv('example.csv', chunksize=10)
-
iterator
返回一個TextParser以便逐塊讀取文件。
excel類型讀取
命令:pd.read_excel()
參數:
-
sheet_name
指定excel的工作表 -
converters
將單元格進行轉換,可以使用函數。
csv類型寫入
命令:df.to_csv()
參數:
-
index
默認情況下,會將index索引一起寫入,但是可以指定參數,index=False來取消寫入索引。 -
header
指定為False將不會寫入columns索引 -
columns
可以用columns=[]來指定寫入的列。
excel類型寫入
命令:pd.to_excel()
參數:
-
sheet_name
指定excel的工作表 -
index
為False時,則不寫入index索引 -
startrow
指定從excel的第幾行開始,這里指的是excel工作表第幾行,而不是我們的df數據。比如,startrow=1,那么打開excel你會發現,開始的行是2。 -
startcol
同上,這里是列,比如startcol=1,那么excel將會從B列開始寫。 -
將兩個DataFrame寫入同一個excel文件的兩個不同的sheet,方法如下
with pd.ExcelWriter('Excelname.xlsx') as writer:
df1.to_excel(writer, sheet_name='sheet1')
df2.to_excel(writer, sheet_name='sheet2')