python3 open txt的UnicodeDecodeError: 'gbk' codec問題解決方案


python3 open txt的UnicodeDecodeError: 'gbk' codec問題解決方案
先直截了當給出解決方案,在程序開頭加上:
import _locale
_locale._getdefaultlocale = (lambda *args: ['zh_CN', 'utf8'])
12
分析
在Windows下經常用python open函數的人相信都遇到過UnicodeDecodeError: ‘gbk’ codec…這種編碼問題。而且很多有經驗的人應該知道解決方法是加上參數encoding=“utf-8”,因為"utf-8"是更通用的編碼:
open("test.txt",encoding="utf-8")
然而這樣的解決方法也有一些問題:

有多個open的情況下,必須手動一個個添加參數,很麻煩
更致命的是,當引用的第三方庫中的open沒有加上這個參數時,我們就幾乎完全束手無策了(勇士可以嘗試修改源碼再重裝)

我正是因為碰到了第二種情況,於是下定決心找一個一勞永逸的方法解決問題,這就要對原理做一些深入探究。

Python 和 encoding  相關的配置主要有下面幾個:

locale.getpreferredencoding() 這個用的是最廣的。 這是 Python 在 open 文件時默認使用的 encoding
sys.getdefaultencoding() 是 Python 進行 str/unicode(byte/str) 轉換時默認使用的 encoding
sys.getfilesystemencoding() 是用來 encoding 文件名的, 例如 open(b’balabala’)
標准輸入輸出(print)的 encoding:
4.1 若設置了 PYTHONIOENCODING 環境變量, 則以次變量為准
4.2 標准輸入輸出是打到終端的話, 看終端的 locale 配置, 在 windows cmd 的代碼頁
4.3 標准輸入輸出被重定向到文件的話, 則參照 1 , 用的是 ` locale.getpreferredencoding()
----出自:http://neue.v2ex.com/t/271999


所以我們的目標是要修改環境配置,python解釋器會取_getdefaultlocale()[1]作為默認編碼類型。
所以我們采用:
import _locale
_locale._getdefaultlocale = (lambda *args: ['zh_CN', 'utf8'])
12
重寫函數后,會改變當前運行環境下的所有模塊的默認編碼。
感謝在 https://juejin.im/post/5bd2b6d5e51d45735c3c0453 找到的解決方案
—————————

 

嘗試用Python寫一個Wordcloud的時候,出現了編碼問題。
照着網上某些博客的說法添添改改后,結果是變成了“UnicodeDecodeError: ‘utf-8’ codec can’t decode byte…”這個錯誤。
搗鼓了一天啊,TXT(此處為本人現下內心表情)。最后,干脆寫個最簡單的文件讀取,竟然還是報錯。於是就考慮是不是txt的編碼問題,因為讀取的txt文件是在Mac上面新建的純文本文件,一時沒找到在哪里查看編碼,最后拷貝到Windows系統上,查看了txt文件的編碼,竟然是ASCII,不是我最愛的utf-8,Mac你辜負了我對你的一番信任啊!ε(┬┬﹏┬┬)3
解決方法

將txt文件的編碼格式改為utf-8即可

此外,在打開文件的時候,要加上第三個參數encoding=‘utf8’(沒有橫杠)。
with open('./test3.txt','r',encoding='utf8') as fin:
    for line in fin.readlines():
        line = line.strip('\n')
123
下面附上第一次成功顯示的詞雲的源碼(參考網上他人的,注釋很詳細)
import jieba
import jieba.analyse
from matplotlib import pyplot as plt
from scipy.misc import imread
from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator
 
# 1.讀取數據
with open("./test.txt","r",encoding="utf8") as f:
    text = f.read()
 
# 2.基於 TextRank 算法的關鍵詞抽取,top50
keywords = jieba.analyse.textrank(text, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
file = ",".join(keywords)
 
# 指定中文字體,不然中文顯示框框
font = r'./HYQiHei-25J.ttf'
print(file)
# 指定背景圖,隨意
image = imread('cake.jpg')
wc = WordCloud(
    font_path=font,
    background_color='white',#背景色
    mask=image,#背景圖
    stopwords=STOPWORDS,#設置停用詞
    max_words=100,#設置最大文字數
    max_font_size=100,#設置最大字體
    width=800,
    height=1000,
 
)
 
#生成詞雲
image_colors = ImageColorGenerator(image)
wc.generate(file)
 
# 使用matplotlib,顯示詞雲圖
plt.imshow(wc)  #顯示詞雲圖
plt.axis('off') #關閉坐標軸
plt.show()
# 保存圖片
wc.to_file('news.png')
———————

 

Python逐行讀取文件內容

代碼來源: Python參考手冊

 

復制代碼
復制代碼
f = open("foo.txt")             # 返回一個文件對象
line = f.readline() # 調用文件的 readline()方法
while line:
print line, # 后面跟 ',' 將忽略換行符
# print(line, end = '')   # 在 Python 3中使用
line = f.readline()

f.close()
復制代碼
復制代碼

也可以寫成以下更簡潔的形式

for line in open("foo.txt"):
print line,

更詳細的文件按行讀取操作可以參考:http://www.cnblogs.com/xuxn/archive/2011/07/27/read-a-file-with-python.html

復制代碼
復制代碼
1. 最基本的讀文件方法:
?
# File: readline-example-1.py

file = open("sample.txt")

while 1:
line = file.readline()
if not line:
break
pass # do something
  一行一行得從文件讀數據,顯然比較慢;不過很省內存。
  在我的機器上讀10M的sample.txt文件,每秒大約讀32000行
2. 用fileinput模塊
?
# File: readline-example-2.py

import fileinput

for line in fileinput.input("sample.txt"):
pass
  寫法簡單一些,不過測試以后發現每秒只能讀13000行數據,效率比上一種方法慢了兩倍多……
3. 帶緩存的文件讀取
?
# File: readline-example-3.py

file = open("sample.txt")

while 1:
lines = file.readlines(100000)
if not lines:
break
for line in lines:
pass # do something
  這個方法真的更好嗎?事實證明,用同樣的數據測試,它每秒可以讀96900行數據!效率是第一種方法的3倍,第二種方法的7倍!
————————————————————————————————————————————————————————————
  在Python 2.2以后,我們可以直接對一個file對象使用for循環讀每行數據:
?
# File: readline-example-5.py

file = open("sample.txt")

for line in file:
pass # do something
  而在Python 2.1里,你只能用xreadlines迭代器來實現:
?
# File: readline-example-4.py

file = open("sample.txt")

for line in file.xreadlines():
pass # do something
復制代碼

 

—————————

python逐行讀取文本

 

一、使用open打開文件后一定要記得調用文件對象的close()方法。比如可以用try/finally語句來確保最后能關閉文件。

二、需要導入import os

三、下面是逐行讀取文件內容的三種方法:

1、第一種方法:

[python] view plain copy

  

復制代碼
f = open("foo.txt") # 返回一個文件對象 line = f.readline() # 調用文件的 readline()方法 while line: print line, # 后面跟 ',' 將忽略換行符 #print(line, end = '')  # 在 Python 3 中使用 line = f.readline() f.close()
復制代碼

 


2、第二種方法:
  與第3種方法對比, 並非一次性將全部的文件內容載入到內存里,而是在迭代的時候,循環到哪一行才將哪一行讀入內存。這里涉及到一個新的概念-迭代器。
  第二種方法是文本文件讀取的最佳選擇,它簡單,且對任意大小的文件都有效,因為他不會一次性把整個文件都載入到內存里,相反第三種方法存在內存壓力過大的問題。
for line in open("foo.txt"): print line, 

 


3、第三種方法:
  
f = open("c:\\1.txt","r") lines = f.readlines() #讀取全部內容 ,並以列表方式返回 for line in lines print line 

 

四、一次性讀取整個文件內容:

 

  

file_object = open('thefile.txt') try: all_the_text = file_object.read() finally: file_object.close()

 


五、區別對待讀取文本 和 二進制:

1、如果是讀取文本

  
    讀文本文件  
    input = open('data', 'r') #第二個參數默認為r input = open('data') 

 


2、如果是讀取二進制
 
  
input = open('data', 'rb') 

 

 讀固定字節

 

chunk = input.read(100)

 

———————


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM