python3 open txt的UnicodeDecodeError: 'gbk' codec問題解決方案

本文轉載自查看原文 2020-03-31 22:08 1371 21前端es6jshtml5/ 文化2019/ pythonmail20

python3 open txt的UnicodeDecodeError: 'gbk' codec問題解決方案
先直截了當給出解決方案，在程序開頭加上：
import _locale
_locale._getdefaultlocale = (lambda *args: ['zh_CN', 'utf8'])
12
分析
在Windows下經常用python open函數的人相信都遇到過UnicodeDecodeError: ‘gbk’ codec…這種編碼問題。而且很多有經驗的人應該知道解決方法是加上參數encoding=“utf-8”，因為"utf-8"是更通用的編碼：
open("test.txt",encoding="utf-8")
然而這樣的解決方法也有一些問題：

有多個open的情況下，必須手動一個個添加參數，很麻煩
更致命的是，當引用的第三方庫中的open沒有加上這個參數時，我們就幾乎完全束手無策了（勇士可以嘗試修改源碼再重裝）

我正是因為碰到了第二種情況，於是下定決心找一個一勞永逸的方法解決問題，這就要對原理做一些深入探究。

Python 和 encoding 相關的配置主要有下面幾個：

locale.getpreferredencoding() 這個用的是最廣的。這是 Python 在 open 文件時默認使用的 encoding
sys.getdefaultencoding() 是 Python 進行 str/unicode(byte/str) 轉換時默認使用的 encoding
sys.getfilesystemencoding() 是用來 encoding 文件名的，例如 open(b’balabala’)
標准輸入輸出(print)的 encoding:
4.1 若設置了 PYTHONIOENCODING 環境變量, 則以次變量為准
4.2 標准輸入輸出是打到終端的話，看終端的 locale 配置，在 windows cmd 的代碼頁
4.3 標准輸入輸出被重定向到文件的話，則參照 1 ，用的是 ` locale.getpreferredencoding()
----出自：http://neue.v2ex.com/t/271999

所以我們的目標是要修改環境配置，python解釋器會取_getdefaultlocale()[1]作為默認編碼類型。
所以我們采用：
import _locale
_locale._getdefaultlocale = (lambda *args: ['zh_CN', 'utf8'])
12
重寫函數后，會改變當前運行環境下的所有模塊的默認編碼。
感謝在 https://juejin.im/post/5bd2b6d5e51d45735c3c0453 找到的解決方案
—————————

嘗試用Python寫一個Wordcloud的時候，出現了編碼問題。
照着網上某些博客的說法添添改改后，結果是變成了“UnicodeDecodeError: ‘utf-8’ codec can’t decode byte…”這個錯誤。
搗鼓了一天啊，TXT（此處為本人現下內心表情）。最后，干脆寫個最簡單的文件讀取，竟然還是報錯。於是就考慮是不是txt的編碼問題，因為讀取的txt文件是在Mac上面新建的純文本文件，一時沒找到在哪里查看編碼，最后拷貝到Windows系統上，查看了txt文件的編碼，竟然是ASCII，不是我最愛的utf-8，Mac你辜負了我對你的一番信任啊！ε(┬┬﹏┬┬)3
解決方法

將txt文件的編碼格式改為utf-8即可

此外，在打開文件的時候，要加上第三個參數encoding=‘utf8’(沒有橫杠)。
with open('./test3.txt','r',encoding='utf8') as fin:
    for line in fin.readlines():
        line = line.strip('\n')
123
下面附上第一次成功顯示的詞雲的源碼（參考網上他人的，注釋很詳細）
import jieba
import jieba.analyse
from matplotlib import pyplot as plt
from scipy.misc import imread
from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator

# 1.讀取數據
with open("./test.txt","r",encoding="utf8") as f:
    text = f.read()

# 2.基於 TextRank 算法的關鍵詞抽取,top50
keywords = jieba.analyse.textrank(text, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
file = ",".join(keywords)

# 指定中文字體，不然中文顯示框框
font = r'./HYQiHei-25J.ttf'
print(file)
# 指定背景圖,隨意
image = imread('cake.jpg')
wc = WordCloud(
    font_path=font,
    background_color='white',#背景色
    mask=image,#背景圖
    stopwords=STOPWORDS,#設置停用詞
    max_words=100,#設置最大文字數
    max_font_size=100,#設置最大字體
    width=800,
    height=1000,

)

#生成詞雲
image_colors = ImageColorGenerator(image)
wc.generate(file)

# 使用matplotlib,顯示詞雲圖
plt.imshow(wc) #顯示詞雲圖
plt.axis('off') #關閉坐標軸
plt.show()
# 保存圖片
wc.to_file('news.png')
———————

Python逐行讀取文件內容

代碼來源： Python參考手冊

f = open("foo.txt")             # 返回一個文件對象
line = f.readline()             # 調用文件的 readline()方法
while line:
    print line,                 # 后面跟 ',' 將忽略換行符
    # print(line, end = '')　　　# 在 Python 3中使用
    line = f.readline()

f.close()

也可以寫成以下更簡潔的形式

for line in open("foo.txt"):
    print line,

更詳細的文件按行讀取操作可以參考：http://www.cnblogs.com/xuxn/archive/2011/07/27/read-a-file-with-python.html

1. 最基本的讀文件方法：
?
# File: readline-example-1.py
 
file = open("sample.txt")
 
while 1:
    line = file.readline()
    if not line:
        break
    pass # do something
　　一行一行得從文件讀數據，顯然比較慢；不過很省內存。
　　在我的機器上讀10M的sample.txt文件，每秒大約讀32000行
2. 用fileinput模塊
?
# File: readline-example-2.py
 
import fileinput
 
for line in fileinput.input("sample.txt"):
    pass
　　寫法簡單一些，不過測試以后發現每秒只能讀13000行數據，效率比上一種方法慢了兩倍多……
3. 帶緩存的文件讀取
?
# File: readline-example-3.py
 
file = open("sample.txt")
 
while 1:
    lines = file.readlines(100000)
    if not lines:
        break
    for line in lines:
        pass # do something
　　這個方法真的更好嗎？事實證明，用同樣的數據測試，它每秒可以讀96900行數據！效率是第一種方法的3倍，第二種方法的7倍！
————————————————————————————————————————————————————————————
　　在Python 2.2以后，我們可以直接對一個file對象使用for循環讀每行數據：
?
# File: readline-example-5.py
 
file = open("sample.txt")
 
for line in file:
    pass # do something
　　而在Python 2.1里，你只能用xreadlines迭代器來實現：
?
# File: readline-example-4.py
 
file = open("sample.txt")
 
for line in file.xreadlines():
    pass # do something

—————————

python逐行讀取文本

一、使用open打開文件后一定要記得調用文件對象的close()方法。比如可以用try/finally語句來確保最后能關閉文件。

二、需要導入import os

三、下面是逐行讀取文件內容的三種方法：

1、第一種方法：

[python] view plain copy

f = open("foo.txt") # 返回一個文件對象 line = f.readline() # 調用文件的 readline()方法 while line: print line, # 后面跟 ',' 將忽略換行符 #print(line, end = '')　 # 在 Python 3 中使用 line = f.readline() f.close()

2、第二種方法：

　　與第3種方法對比，並非一次性將全部的文件內容載入到內存里,而是在迭代的時候，循環到哪一行才將哪一行讀入內存。這里涉及到一個新的概念-迭代器。

　　第二種方法是文本文件讀取的最佳選擇，它簡單，且對任意大小的文件都有效，因為他不會一次性把整個文件都載入到內存里，相反第三種方法存在內存壓力過大的問題。

for line in open("foo.txt"): print line,

3、第三種方法：

　　通過readlines方法，會首先一次性把文件載入到行字符串列表中，然后再對這個字符串列表進行迭代；

f = open("c:\\1.txt","r") lines = f.readlines() #讀取全部內容 ，並以列表方式返回 for line in lines print line

四、一次性讀取整個文件內容：

file_object = open('thefile.txt') try: all_the_text = file_object.read() finally: file_object.close()

五、區別對待讀取文本和二進制：

1、如果是讀取文本

    讀文本文件  
    input = open('data', 'r') #第二個參數默認為r input = open('data')

2、如果是讀取二進制

input = open('data', 'rb')

讀固定字節

chunk = input.read(100)

———————

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 問題：python3 使用beautifulSoup時，出錯UnicodeDecodeError: 'gbk' codec ……. 解決python3 UnicodeDecodeError: 'gbk' codec can't decode byte Python3解決UnicodeDecodeError: 'utf-8' codec can't decode byte..問題最快解決方案 Python讀取文件時出現UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position xx: 解決方案 Python讀取文件時出現UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position xx: 解決方案 Python3 關於UnicodeDecodeError/UnicodeEncodeError: ‘gbk’ codec can’t decode/encode bytes類似的文本編碼問題 UnicodeDecodeError: 'gbk' codec can't decode byte 0xaf in position 218: illegal multibyte sequence解決方案 python編碼問題：UnicodeDecodeError: 'gbk' codec can't decode Django- UnicodeDecodeError:'utf-8' codec can't decode 問題解決 Python文件讀取路徑問題解決方案