| .read_table() / read_csv() |
|
| |
filepath_or_buffer |
文件路徑 |
| sep=’\t’ |
分隔符. 設置為N, 將嘗試自動確定 |
| delimiter=N |
sep的備用參數名 |
| header='infer' |
int |
用作列名稱的行號 |
| ints |
若傳入列表則表示這幾行都將作為列標簽 |
| None |
文件中不包含標題行 |
| 'infer' |
header = 0 if name is None else None |
| names=N |
作為列標簽的列表 |
| index_col=N |
int |
用作行標簽的列 |
| 序列 |
使用MultiIndex |
| F |
強制使用第一列作為索引 |
| usecols=N |
list_like: 要讀取的列, 位置或列標簽 |
| squeeze=F |
若果解析的數據只有一列, 則返回一個Series |
| prefix=N |
在沒有標題時添加到列號的前綴,例如'X'代表X0,X1,... |
| mangle_dupe_cols=T |
重復的列將被指定為”X”, "X.1"...“X.N”. 傳入F將導致覆蓋數據 |
| dtype=N |
數據或每列數據類型. 例如:{'a':np.float64,'b':np.int32} |
| engine=N |
選擇解析器引擎. ‘c’引擎速度更快,而’python’引擎目前更加完善 |
| converters=N |
dict {key:fun(str)}. 轉換某些列中的值的函數, 鍵是整數或列標簽 |
| true_values=N |
list. 要考慮的值為True ??? |
| false_values=N |
list. 要考慮的值為False ??? |
| skipinitialspace=F |
跳過分隔符后的空白符 |
| skiprows=N |
要跳過的行號(list)或要跳過的行數(integer) |
| nrows=N |
要讀取的文件的行數. 適用於讀取大文件的片段 |
| na_values=N |
識別為NaN的字符串或字符串列表 |
| keep_default_na=T |
T設置的na_values追加到默認識別為NaN值的列表, 否則將覆蓋默認 |
| na_filter=T |
是否檢測Na值, 在確定沒有Na的數據中設置為F可提高讀取大文件的性能 |
| verbose=F |
是否顯示每一列中的NA值的數量
|
| skip_blank_lines=T |
如果為T, 則跳過空白行, 而不是解釋為NaN值 |
| parse_dates=F |
True: 嘗試將索引解析成日期 |
| [位置或標簽]: 嘗試將這些列解析成日期 |
| [[位置或標簽]]: 合並這些列並嘗試將其解析成日期 |
| {name: [位置或標簽]}: 合並指定列指定標簽為name, 並嘗試將其解析為日期 |
| infer_datetime_format=F |
True: 嘗試加快parse_dates解析速度 |
| keep_date_col=F |
True: 若parse_dates解析成的日期列沒有占用原數據標簽, 則保留原始列 |
| date_parser=N |
用於將字符串轉換為datetime的函數, 默認dateutil.parser.parser |
| dayfirst=F |
True: 識別歐洲格式日期(日-月-年), 默認將識別為(月-日-年) |
| iterator=F |
生成迭代器, 通過迭代或get_chunk()獲取數據塊(默認全部) |
| chunksize=N |
int: 生成迭代器, 通過迭代或get_chunk()每次獲取此參數指定大小的數據塊 |
| compression='infer' |
{'infer','gzip','bz2','zip','xz',None} 用於磁盤上數據的即時解壓縮。如果“infer”,則使用gzip,bz2,zip或xz,如果filepath_or_buffer是分別以“.gz”, “.bz2”, “.zip”或“xz”結尾的字符串,否則不進行解壓縮。如果使用'zip',ZIP文件必須只包含一個要讀入的數據文件. 設置為無, 無解壓縮 |
| thousands=N |
str: 千位分隔符, 默認無 |
| decimal='.' |
可識別為小數點的字符 |
| lineterminator=N |
str(length 1) 將文件拆分成行的字符, 只有C解釋器有效 |
| quotechar='"' |
str(length 1) 用於表示帶引號項目的開始和結束的字符. 引號項可以包含分隔符, 它將被忽略 |
| quoting=0 |
3: quotechar參數將不會生效 |
| escapechar=N |
??? |
| comment=N |
str(length 1) 以此字符開頭的行將被當做空白行處理 |
| encoding=N |
編碼 |
| dialect=N |
??? |
| tupleize_cols=F |
當選擇多行作為列標簽時, 默認生成多級索引, 若設置為True, 則會把多個索引組成元組作為單個標簽 |
| error_bad_lines=T |
False: 異常行將被刪除 |
| warn_bad_lines=T |
error_bad_lines為False, 且此參數為True, 將會輸出每一個error行的警告 |
| skipfooter=0 |
跳過文件底部的行數(不支持engine ='c') |
| skip_footer=0 |
棄用, 使用skipfooter參數 |
| doublequote=T |
將連續多個quotechar指定的字符當做一個來識別 |
| delim_whitespace=F |
指定是否將空白用作分隔符, 相當於設置sep='\s+'. 若設為True, 則不應為delimiter參數傳入任何內容(支持Python解釋器) |
| compact_ints=F |
將被刪除 |
| use_unsigned=F |
將被刪除 |
| low_memory=T |
??? |
| buffer_lines=N |
將被刪除
|
| memory_map=F |
如果為filepath_or_buffer提供了文件路徑,則將文件對象直接映射到內存上,並從中直接訪問數據。使用此選項可以提高性能,因為不再有任何I / O開銷 |
| float_precision=N |
??? |
| .read_fwf() |
讀取固定寬度格式的文件 |
| |
|
|
| .read_msgpack() |
??? |
| |
|
|