一. 文件的讀取


csv類型讀取

命令:pd.read_csv()
常用參數:

  • path
    文件路徑,可以是網絡數據

  • encoding
    指定編碼。
    pd.read_csv('example.csv', encoding='gb2312')

  • sep
    指定行中各字段的分隔符,使用read_csv()時,默認就是逗號。

  • header
    指定哪一行作為列索引,默認是0,即第一行。
    當你指定None時,pandas會默認給出數字索引。
    需要注意的是,如果指定了非第一行,那么你所指定的這一行之前的數據將被忽略
    pd.read_csv('example.csv', header=None, encoding='gb2312')

  • index_col
    指定哪一列作為行索引,pandas默認的行索引是從0開始一直向下遞增,但是可以指定某一列作為行的索引,這里的指定可以是數字形式,也可以具體給出列的名稱。

    pd.read_csv('example.csv', index_col=0)  # 指定第0列
    pd.read_csv('example.csv', index_col='company')  # 指定'company'列作為索引
    
  • names
    自己添加列索引,是一個列表形式。
    pd.read_csv('example.csv', names=['公司','職位', '薪資', '地點'])
    如果原始數據已經帶有索引,而你想要重新自定義一個索引,可以添加一個header=0參數, 意思就是使用names這個新的索引,代替原來的索引。

  • parse_dates
    將某一列轉換成日期格式

  • skiprows
    指定忽略的行數或者需要跳過的行號。
    如果是一個數字,則第0行開始,忽略前面的那些行,如果是一個列表,則會忽略具體的某些行。

  • na_values
    如果na_values后面跟一個列表,列表中出現的數據將會變成NaN。
    如果na_values后面跟一個字典,字典的鍵是列名,值是你想變成Nan的數據。

  • comment
    將注釋信息從行尾拆分出去的字符。(一個或多個)

  • nrows
    讀取的行數。(從文件開始處算起)

  • thousands
    指定千位分隔符,如','。

  • chunksize
    文件塊的大小,在逐塊讀取文件時使用
    pd.read_csv('example.csv', chunksize=10)

  • iterator
    返回一個TextParser以便逐塊讀取文件。

excel類型讀取

命令:pd.read_excel()
參數:

  • sheet_name
    指定excel的工作表

  • converters
    將單元格進行轉換,可以使用函數。

csv類型寫入

命令:df.to_csv()
參數:

  • index
    默認情況下,會將index索引一起寫入,但是可以指定參數,index=False來取消寫入索引。

  • header
    指定為False將不會寫入columns索引

  • columns
    可以用columns=[]來指定寫入的列。

excel類型寫入

命令:pd.to_excel()
參數:

  • sheet_name
    指定excel的工作表

  • index
    為False時,則不寫入index索引

  • startrow
    指定從excel的第幾行開始,這里指的是excel工作表第幾行,而不是我們的df數據。比如,startrow=1,那么打開excel你會發現,開始的行是2。

  • startcol
    同上,這里是列,比如startcol=1,那么excel將會從B列開始寫。

  • 將兩個DataFrame寫入同一個excel文件的兩個不同的sheet,方法如下

with pd.ExcelWriter('Excelname.xlsx') as writer:
    df1.to_excel(writer, sheet_name='sheet1')
    df2.to_excel(writer, sheet_name='sheet2')


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM