Python3的unicode編碼轉換成中文問題


Python3的unicode編碼轉換成中文問題

9102年,大部分人已經受盡了python2里面unicode的折磨,轉向了python3。
python3似乎對一切的unicode都那么的友好,當一個字符串里存在unicode的時候,只要字符串是硬編碼的,就可以轉換成中文打印在控制台上,如:

s = ‘\u7b14\u8bb0’
print(s)

你得到的就是中文漢字。
但是,假如你。。的這段含有‘\u’的unicode編碼不是硬編碼進腳本的,而是通過requests在網上爬的。。。那么你會發現,你打印出來的,還是長這樣的unicode編碼,換句話說,解釋器這個時候根本就沒認出這東西原來是unicode編碼,當成普通的字符序列了。
百度找到了最好的解決方法:在這個unicode串后面加上:

s = s.decode().encode(‘unicode_escape’)
print(s)

它就打印出漢字了

 

python3中沒有這種問題,所以最簡單的方法是引入__future__模塊,把新版本的特性導入到當前版本

from __future__ import unicode_literals

print json.dumps(m,ensure_ascii=False)

=>{"a": "你好"}
在寫入文件的時候出現了Python2.7的UnicodeEncodeError: ‘ascii’ codec can’t encode異常錯誤

大神的解決方法: 
不使用open打開文件,而使用codecs:
from __future__ import unicode_literals
import codecs
fp = codecs.open('output.txt', 'a+', 'utf-8')
fp.write(json.dumps(m,ensure_ascii=False))
fp.close()


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM