Python爬取網站返回的內容為亂碼解決方法

本文轉載自查看原文 2022-03-11 13:59 2805 python雜技

1、爬取某網站內容時，返回的結果為亂碼，如圖：

2、寫在前面的解釋

Requests會基於HTTP頭部響應的編碼做出有根據的推測，當訪問r.text時，Requests會使用其推測的文本編碼。

查看網頁返回的字符集類型：r.apparent_encoding

查看自動判斷的字符集類型：r.encoding

可以看到Requests推測的文本編碼（ISO-8859-1）與源網頁編碼（utf-8）不一致，因此會導致亂碼問題的出現。

注：源網頁也能直接查看編碼格式，如下圖：

3、解決方法

這里要注意順序，需要先指定r.encoding的編碼格式，再訪問r.text。即第9行代碼必須寫在第10行代碼之前。

（1）方法一：直接指定r.encoding為源網頁的編碼格式

r.encoding="utf-8"

（2）方法二：通過r.apparent_encoding屬性來指定，直接將其值賦給r.encoding

r.encoding = r.apparent_encoding

（3）方法三：通過編碼、解碼的方式

4、亂碼問題解決

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python爬取網站返回的內容為亂碼解決方法 python用beautifulsoup爬取網頁時出現亂碼的解決方法 Python爬取mn52網站美女圖片以及圖片防盜鏈的解決方法 Python+requests 爬取網站遇到中文亂碼怎么辦？ java爬蟲爬取的html內容中空格（）變為問號“?”的解決方法【python爬蟲】根據查詢詞爬取網站返回結果 .net core返回Content中文內容時亂碼，完美解決方法 fiddler 之返回數據亂碼解決方法 [Python]爬取mzitu網站 python爬取網站數據