python3 open txt的UnicodeDecodeError: 'gbk' codec問題解決方案
先直截了當給出解決方案,在程序開頭加上:
import _locale
_locale._getdefaultlocale = (lambda *args: ['zh_CN', 'utf8'])
12
分析
在Windows下經常用python open函數的人相信都遇到過UnicodeDecodeError: ‘gbk’ codec…這種編碼問題。而且很多有經驗的人應該知道解決方法是加上參數encoding=“utf-8”,因為"utf-8"是更通用的編碼:
open("test.txt",encoding="utf-8")
然而這樣的解決方法也有一些問題:
有多個open的情況下,必須手動一個個添加參數,很麻煩
更致命的是,當引用的第三方庫中的open沒有加上這個參數時,我們就幾乎完全束手無策了(勇士可以嘗試修改源碼再重裝)
我正是因為碰到了第二種情況,於是下定決心找一個一勞永逸的方法解決問題,這就要對原理做一些深入探究。
Python 和 encoding 相關的配置主要有下面幾個:
locale.getpreferredencoding() 這個用的是最廣的。 這是 Python 在 open 文件時默認使用的 encoding
sys.getdefaultencoding() 是 Python 進行 str/unicode(byte/str) 轉換時默認使用的 encoding
sys.getfilesystemencoding() 是用來 encoding 文件名的, 例如 open(b’balabala’)
標准輸入輸出(print)的 encoding:
4.1 若設置了 PYTHONIOENCODING 環境變量, 則以次變量為准
4.2 標准輸入輸出是打到終端的話, 看終端的 locale 配置, 在 windows cmd 的代碼頁
4.3 標准輸入輸出被重定向到文件的話, 則參照 1 , 用的是 ` locale.getpreferredencoding()
----出自:http://neue.v2ex.com/t/271999
所以我們的目標是要修改環境配置,python解釋器會取_getdefaultlocale()[1]作為默認編碼類型。
所以我們采用:
import _locale
_locale._getdefaultlocale = (lambda *args: ['zh_CN', 'utf8'])
12
重寫函數后,會改變當前運行環境下的所有模塊的默認編碼。
感謝在 https://juejin.im/post/5bd2b6d5e51d45735c3c0453 找到的解決方案
—————————
嘗試用Python寫一個Wordcloud的時候,出現了編碼問題。
照着網上某些博客的說法添添改改后,結果是變成了“UnicodeDecodeError: ‘utf-8’ codec can’t decode byte…”這個錯誤。
搗鼓了一天啊,TXT(此處為本人現下內心表情)。最后,干脆寫個最簡單的文件讀取,竟然還是報錯。於是就考慮是不是txt的編碼問題,因為讀取的txt文件是在Mac上面新建的純文本文件,一時沒找到在哪里查看編碼,最后拷貝到Windows系統上,查看了txt文件的編碼,竟然是ASCII,不是我最愛的utf-8,Mac你辜負了我對你的一番信任啊!ε(┬┬﹏┬┬)3
解決方法
將txt文件的編碼格式改為utf-8即可
此外,在打開文件的時候,要加上第三個參數encoding=‘utf8’(沒有橫杠)。
with open('./test3.txt','r',encoding='utf8') as fin:
for line in fin.readlines():
line = line.strip('\n')
123
下面附上第一次成功顯示的詞雲的源碼(參考網上他人的,注釋很詳細)
import jieba
import jieba.analyse
from matplotlib import pyplot as plt
from scipy.misc import imread
from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator
# 1.讀取數據
with open("./test.txt","r",encoding="utf8") as f:
text = f.read()
# 2.基於 TextRank 算法的關鍵詞抽取,top50
keywords = jieba.analyse.textrank(text, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
file = ",".join(keywords)
# 指定中文字體,不然中文顯示框框
font = r'./HYQiHei-25J.ttf'
print(file)
# 指定背景圖,隨意
image = imread('cake.jpg')
wc = WordCloud(
font_path=font,
background_color='white',#背景色
mask=image,#背景圖
stopwords=STOPWORDS,#設置停用詞
max_words=100,#設置最大文字數
max_font_size=100,#設置最大字體
width=800,
height=1000,
)
#生成詞雲
image_colors = ImageColorGenerator(image)
wc.generate(file)
# 使用matplotlib,顯示詞雲圖
plt.imshow(wc) #顯示詞雲圖
plt.axis('off') #關閉坐標軸
plt.show()
# 保存圖片
wc.to_file('news.png')
———————
代碼來源: Python參考手冊
f = open("foo.txt") # 返回一個文件對象
line = f.readline() # 調用文件的 readline()方法
while line:
print line, # 后面跟 ',' 將忽略換行符
# print(line, end = '') # 在 Python 3中使用
line = f.readline()
f.close()
也可以寫成以下更簡潔的形式
for line in open("foo.txt"):
print line,
更詳細的文件按行讀取操作可以參考:http://www.cnblogs.com/xuxn/archive/2011/07/27/read-a-file-with-python.html
1. 最基本的讀文件方法:
?
# File: readline-example-1.py
file = open("sample.txt")
while 1:
line = file.readline()
if not line:
break
pass # do something
一行一行得從文件讀數據,顯然比較慢;不過很省內存。
在我的機器上讀10M的sample.txt文件,每秒大約讀32000行
2. 用fileinput模塊
?
# File: readline-example-2.py
import fileinput
for line in fileinput.input("sample.txt"):
pass
寫法簡單一些,不過測試以后發現每秒只能讀13000行數據,效率比上一種方法慢了兩倍多……
3. 帶緩存的文件讀取
?
# File: readline-example-3.py
file = open("sample.txt")
while 1:
lines = file.readlines(100000)
if not lines:
break
for line in lines:
pass # do something
這個方法真的更好嗎?事實證明,用同樣的數據測試,它每秒可以讀96900行數據!效率是第一種方法的3倍,第二種方法的7倍!
————————————————————————————————————————————————————————————
在Python 2.2以后,我們可以直接對一個file對象使用for循環讀每行數據:
?
# File: readline-example-5.py
file = open("sample.txt")
for line in file:
pass # do something
而在Python 2.1里,你只能用xreadlines迭代器來實現:
?
# File: readline-example-4.py
file = open("sample.txt")
for line in file.xreadlines():
pass # do something
—————————
一、使用open打開文件后一定要記得調用文件對象的close()方法。比如可以用try/finally語句來確保最后能關閉文件。
二、需要導入import os
三、下面是逐行讀取文件內容的三種方法:
1、第一種方法:
f = open("foo.txt") # 返回一個文件對象 line = f.readline() # 調用文件的 readline()方法 while line: print line, # 后面跟 ',' 將忽略換行符 #print(line, end = '') # 在 Python 3 中使用 line = f.readline() f.close()
2、第二種方法:
for line in open("foo.txt"): print line,
3、第三種方法:
四、一次性讀取整個文件內容:
file_object = open('thefile.txt') try: all_the_text = file_object.read() finally: file_object.close()
五、區別對待讀取文本 和 二進制:
1、如果是讀取文本
2、如果是讀取二進制
input = open('data', 'rb')
讀固定字節
chunk = input.read(100)
———————