python爬蟲中文亂碼解決方法


python爬蟲中文亂碼

前幾天用python來爬取全國行政區划編碼的時候,遇到了中文亂碼的問題,折騰了一會兒,才解決。現特記錄一下,方便以后查看。

我是用python的requests和bs4庫來實現爬蟲,這兩個庫的簡單用法可參照python爬取當當網的書籍信息並保存到csv文件

亂碼未處理前部分代碼

   url = '要爬取的網頁'
    r = requests.get(url, timeout=30)
    soup = BeautifulSoup(r.text, 'lxml')

亂碼原因

我爬取的網頁使用的編碼是GBK。所以要按GBK編碼,才能避免中文亂碼。

解決亂碼的代碼

   url = '要爬取的網頁'
    r = requests.get(url, timeout=30)
    r.encoding='GBK'   #增加encoding=‘GBK’,解決中文亂碼問題
    soup = BeautifulSoup(r.text, 'lxml')

【原創聲明】轉載請標明出處:https://www.cnblogs.com/surecheun/p/9694052.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM