python庫--pandas--文本文件讀取

本文轉載自查看原文 2018-01-24 18:10 3092 pandas/ python庫

.read_table() / read_csv()
	filepath_or_buffer	文件路徑
	sep=’\t’	分隔符. 設置為N, 將嘗試自動確定
	delimiter=N	sep的備用參數名
	header='infer'	int	用作列名稱的行號
		ints	若傳入列表則表示這幾行都將作為列標簽
		None	文件中不包含標題行
		'infer'	header = 0 if name is None else None
	names=N	作為列標簽的列表
	index_col=N	int	用作行標簽的列
		序列	使用MultiIndex
		F	強制使用第一列作為索引
	usecols=N	list_like: 要讀取的列, 位置或列標簽
	squeeze=F	若果解析的數據只有一列, 則返回一個Series
	prefix=N	在沒有標題時添加到列號的前綴，例如'X'代表X0，X1，...
	mangle_dupe_cols=T	重復的列將被指定為”X”, "X.1"...“X.N”. 傳入F將導致覆蓋數據
	dtype=N	數據或每列數據類型. 例如:{'a'：np.float64，'b'：np.int32}
	engine=N	選擇解析器引擎. ‘c’引擎速度更快，而’python’引擎目前更加完善
	converters=N	dict {key:fun(str)}. 轉換某些列中的值的函數, 鍵是整數或列標簽
	true_values=N	list. 要考慮的值為True ???
	false_values=N	list. 要考慮的值為False ???
	skipinitialspace=F	跳過分隔符后的空白符
	skiprows=N	要跳過的行號(list)或要跳過的行數(integer)
	nrows=N	要讀取的文件的行數. 適用於讀取大文件的片段
	na_values=N	識別為NaN的字符串或字符串列表
	keep_default_na=T	T設置的na_values追加到默認識別為NaN值的列表, 否則將覆蓋默認
	na_filter=T	是否檢測Na值, 在確定沒有Na的數據中設置為F可提高讀取大文件的性能
	verbose=F	是否顯示每一列中的NA值的數量
	skip_blank_lines=T	如果為T, 則跳過空白行, 而不是解釋為NaN值
	parse_dates=F	True: 嘗試將索引解析成日期
		[位置或標簽]: 嘗試將這些列解析成日期
		[[位置或標簽]]: 合並這些列並嘗試將其解析成日期
		{name: [位置或標簽]}: 合並指定列指定標簽為name, 並嘗試將其解析為日期
	infer_datetime_format=F	True: 嘗試加快parse_dates解析速度
	keep_date_col=F	True: 若parse_dates解析成的日期列沒有占用原數據標簽, 則保留原始列
	date_parser=N	用於將字符串轉換為datetime的函數, 默認dateutil.parser.parser
	dayfirst=F	True: 識別歐洲格式日期(日-月-年), 默認將識別為(月-日-年)
	iterator=F	生成迭代器, 通過迭代或get_chunk()獲取數據塊(默認全部)
	chunksize=N	int: 生成迭代器, 通過迭代或get_chunk()每次獲取此參數指定大小的數據塊
	compression='infer'	{'infer'，'gzip'，'bz2'，'zip'，'xz'，None} 用於磁盤上數據的即時解壓縮。如果“infer”，則使用gzip，bz2，zip或xz，如果filepath_or_buffer是分別以“.gz”， “.bz2”， “.zip”或“xz”結尾的字符串，否則不進行解壓縮。如果使用'zip'，ZIP文件必須只包含一個要讀入的數據文件. 設置為無, 無解壓縮
	thousands=N	str: 千位分隔符, 默認無
	decimal='.'	可識別為小數點的字符
	lineterminator=N	str(length 1) 將文件拆分成行的字符, 只有C解釋器有效
	quotechar='"'	str(length 1) 用於表示帶引號項目的開始和結束的字符. 引號項可以包含分隔符, 它將被忽略
	quoting=0	3: quotechar參數將不會生效
	escapechar=N	???
	comment=N	str(length 1) 以此字符開頭的行將被當做空白行處理
	encoding=N	編碼
	dialect=N	???
	tupleize_cols=F	當選擇多行作為列標簽時, 默認生成多級索引, 若設置為True, 則會把多個索引組成元組作為單個標簽
	error_bad_lines=T	False: 異常行將被刪除
	warn_bad_lines=T	error_bad_lines為False, 且此參數為True, 將會輸出每一個error行的警告
	skipfooter=0	跳過文件底部的行數（不支持engine ='c'）
	skip_footer=0	棄用, 使用skipfooter參數
	doublequote=T	將連續多個quotechar指定的字符當做一個來識別
	delim_whitespace=F	指定是否將空白用作分隔符, 相當於設置sep='\s+'. 若設為True, 則不應為delimiter參數傳入任何內容(支持Python解釋器)
	compact_ints=F	將被刪除
	use_unsigned=F	將被刪除
	low_memory=T	???
	buffer_lines=N	將被刪除
	memory_map=F	如果為filepath_or_buffer提供了文件路徑，則將文件對象直接映射到內存上，並從中直接訪問數據。使用此選項可以提高性能，因為不再有任何I / O開銷
	float_precision=N	???
.read_fwf()		讀取固定寬度格式的文件

.read_msgpack()		???

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python庫--pandas--寫入文本文件 Python之讀取大型文本文件 python讀取並輸出文本文件同時加上行號 C#讀取大文本文件 matlab讀取txt文本文件 Pandas—read_csv()/read_table()文本文件的讀取 python處理txt大文本文件 python文本文件行去重 python學習之文本文件上傳 python處理文本文件