Python requests庫中文亂碼問題匯總(編碼)
在用requests爬取網頁時,經常會碰到網頁的編碼問題導致中文亂碼
<dt>ç¹è²æå¡</dt>
這時首先查看頁面源代碼,看meta標簽里的編碼是什么,然后設置成相應的編碼即可
response
.encoding = 'utf-8' # 設置編碼
但有的時候設置meta標簽查看的編碼依然亂碼,這是可以使用apparent_encoding查看真實編碼
response
.apparent_encoding
然后設置編碼
response.encoding = 'utf-8' # 設置編碼
還有一種特殊情況,獲得的編碼是gb2312,這是設置編碼為gb2312依然會亂碼。
這是因為gb2312支持的漢字較gbk要少很多,所以有些gb2312的網頁實際需要用gbk解碼。