import urllib.request
response = urllib.request.urlopen("https://www.51job.com")
print(response.read().decode('utf-8'))
報錯
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 225: invalid continuation byte
改為
print(response.read().decode('gbk'))
程序就好了
翻到了一篇博客,里面有這么一段話:
如果python中所要處理的字符串中包含中文,那么最好要搞懂所用字符的編碼,是gbk/gb2312/gb18030,還是utf-8,否則容易出現亂碼,以及此處的語法錯誤。
嘗試將編碼方式改為“gbk”或者“gb2312”以及“gb18030”之后,輸出就正常了,這說明原來的中文字符是采用gbk/gb2312/gb18030編碼的。