1、為什么會出現亂碼問題,用什么方式編碼就用什么方式解碼,由於csv不是用的utf-8編碼,故不能用它解碼。
常用的編碼方式有 utf-8,ISO-8859-1、GB18030等。
2、中文亂碼原因:
一般的csv文件如果使用
data = pd.read_csv("data__361_46.csv", encoding='utf-8')
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb3 in position 0: invalid start byte
若此時改為:
data = pd.read_csv('sample.csv', encoding='ISO-8859-1')
此時不再報錯,但是中文字符解析異常,出現下列錯誤:
3、有兩種解決辦法:
(1)用記事本打開csv文件,另存為,編碼格式改為utf-8然后用utf-8讀取文件。
(2)用 csv編碼的 “GB18030” 解碼方式讀取文件。
另外,由於python不支持中文,故一般在所有python代碼開頭第一行加上#coding=utf-8