Python requests庫中文亂碼問題匯總(編碼)


Python requests庫中文亂碼問題匯總(編碼)

 

在用requests爬取網頁時,經常會碰到網頁的編碼問題導致中文亂碼

<dt>特色服务</dt>

這時首先查看頁面源代碼,看meta標簽里的編碼是什么,然后設置成相應的編碼即可

 
        
    response.encoding = 'utf-8'  # 設置編碼
 
        

但有的時候設置meta標簽查看的編碼依然亂碼,這是可以使用apparent_encoding查看真實編碼

response.apparent_encoding

然后設置編碼

 response.encoding = 'utf-8'  # 設置編碼

還有一種特殊情況,獲得的編碼是gb2312,這是設置編碼為gb2312依然會亂碼。

這是因為gb2312支持的漢字較gbk要少很多,所以有些gb2312的網頁實際需要用gbk解碼。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM