讀取CSV
讀取CSV文件時,,設置sep參數,可以替換分割用的符號:
df = pd.read_csv('student_scores.csv', sep=':') df.head()
這樣可以把冒號作為分隔符。
read_csv
的另一個功能是指定文件的哪一行作為標題,而標題指定了列標簽。通常第一行是標題,但有時如果文件頂部有額外的元信息,我們希望指定另一行作為標題。可以這樣操作:
df = pd.read_csv('student_scores.csv', header=2) df.head()
這里使用第 2 行作為標題,上面的所有數據都被刪除。默認情況下,read_csv
使用 header=0,使用第一行作為列標簽。
如果文件中不包括列標簽,可以使用 header=None
防止數據的第一行被誤當做列標簽。
還可以用以下方法自己指定列標簽:
labels = ['id', 'name', 'attendance', 'hw', 'test1', 'project1', 'test2', 'project2', 'final'] df = pd.read_csv('student_scores.csv', names=labels) df.head()
除使用默認索引(從 0 遞增 1 的整數)之外,還可以將一個或多個列指定為數據框的索引:
df = pd.read_csv('student_scores.csv', index_col='Name') df.head()
df = pd.read_csv('student_scores.csv', index_col=['Name', 'ID']) df.head()
寫入CSV
df_powerplant.to_csv('powerplant_data_edited.csv') df = pd.read_csv('powerplant_data_edited.csv') df.head()
這個 Unnamed:0
是to_csv()
默認保存索引,除非指定不保存。如需忽略索引,必須提供參數 index=False:
df_powerplant.to_csv('powerplant_data_edited.csv', index=False) df = pd.read_csv('powerplant_data_edited.csv') df.head()