首先,提倡使用utf-8編碼方案,因為它跨平台不錯。
經驗一:在開頭聲明:
# -*- coding: utf-8 -*-
有朋友問我-*-有什么作用,那個就是為了好看,愛美之心人皆有,更何況程序員?當然,也可以寫成:
# coding:utf-8
經驗二:遇到字符(節)串,立刻轉化為unicode,不要用str(),直接使用unicode()
unicode_str = unicode('中文', encoding='utf-8')
print unicode_str.encode('utf-8')
經驗三:如果對文件操作,打開文件的時候,最好用codecs.open,替代open(這個后面會講到,先放在這里)import codecs
codecs.open('filename', encoding='utf8')
經驗四:聲明字符串直接加u,聲明的字符串就是unicode編碼的字符串
a = u"中"
經驗五:
python在安裝時,默認的編碼是ascii,當程序中出現非ascii編碼時,python的處理常常會報這樣的錯
UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128),
python沒辦法處理非ascii編碼的,此時需要自己設置將python的默認編碼,一般設置為utf8的編碼格式。
查詢系統默認編碼可以在解釋器中輸入以下命令: Python代碼
>>>sys.getdefaultencoding()
設置默認編碼時使用: Python代碼
>>>sys.setdefaultencoding('utf8')
可能會報
AttributeError: 'module' object has no attribute 'setdefaultencoding'
的錯誤,執行reload(sys),在執行以上命令就可以順利通過。
此時在執行sys.getdefaultencoding()就會發現編碼已經被設置為utf8的了,但是在解釋器里修改的編碼只能保證當次有效,在重啟解釋器后,會發現,編碼又被重置為默認的ascii了,那么有沒有辦法一次性修改程序或系統的默認編碼呢。
###有2種方法設置python的默認編碼:
一個解決的方案在程序中加入以下代碼: Python代碼
import sys
reload(sys)
sys.setdefaultencoding('utf8')
另一個方案是在/usr/local/lib/python.27/site-packages或者/usr/lib/python2.7下新建一個sitecustomize.py,內容為: Python代碼, 兩個路徑的原因是因為系統不同的原因,debian和ubuntu存放的目錄是后者,其他沒有測試。
# encoding=utf8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
重啟python解釋器,執行sys.getdefaultencoding(),發現編碼已經被設置為utf8的了,多次重啟之后,效果相同,這是因為系統在python啟動的時候,自行調用該文件,設置系統的默認編碼,而不需要每次都手動的加上解決代碼,屬於一勞永逸的解決方法。
還有一種解決方案是在程序中所有涉及到編碼的地方,強制編碼為utf8,即添加代碼encode("utf8"),這種方法並不推薦使用,因為一旦少寫一個地方,將會導致大量的錯誤報告.
