ulipad用起來順手,而不盡人意的地方時,它不能正確輸出中文。而且有人指出這和文件的編碼沒關系,所以將”設置“選項里”缺省文檔編碼“修改為”utf-8“也無濟於事。為了解決這個問題,我在網上搜了搜,解決方法如引文所述:
decode的作用是將其他編碼的字符串轉換成unicode編碼,如str1.decode('gb2312'),表示將gb2312編碼的字符串str1轉換成unicode編碼。
encode的作用是將unicode編碼轉換成其他編碼的字符串,如str2.encode('gb2312'),表示將unicode編碼的字符串str2轉換成gb2312編碼。
在某些IDE中,字符串的輸出總是出現亂碼,甚至錯誤,其實是由於IDE的結果輸出控制台自身不能顯示字符串的編碼,而不是程序本身的問題。
如在UliPad中運行如下代碼:
s=u"中文"
print s
會提示:UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。這是因為UliPad在英文WindowsXP 上的控制台信息輸出窗口是按照ascii編碼輸出的(英文系統的默認編碼是ascii),而上面代碼中的字符串是Unicode編碼的,所以輸出時產生了錯誤。
將最后一句改為:print s.encode('gb2312')
則能正確輸出“中文”兩個字。
若最后一句改為:print s.encode('utf8')
則輸出:\xe4\xb8\xad\xe6\x96\x87,這是控制台信息輸出窗口按照ascii編碼輸出utf8編碼的字符串的結果。
原理說了半天,最后來個包治百病的吧:)
#!/usr/bin/env python
#coding=utf-8
s="中文"
if isinstance(s, unicode): #判讀s是否為unicode編碼
#s=u"中文"
print s.encode('gb2312') #是 將unicode編碼的字符串s轉換成gb2312編碼 (編碼)
else: #否 將utf8編碼的字符串s轉換成unicode編碼 (解碼) 然后再 轉換成gb2312編碼 (編碼)
#s="中文"
print s.decode('utf-8').encode('gb2312')