python爬蟲中文亂碼

前幾天用python來爬取全國行政區划編碼的時候，遇到了中文亂碼的問題，折騰了一會兒，才解決。現特記錄一下，方便以后查看。

我是用python的requests和bs4庫來實現爬蟲，這兩個庫的簡單用法可參照python爬取當當網的書籍信息並保存到csv文件

   url = '要爬取的網頁'
    r = requests.get(url, timeout=30)
    soup = BeautifulSoup(r.text, 'lxml')

我爬取的網頁使用的編碼是GBK。所以要按GBK編碼，才能避免中文亂碼。

   url = '要爬取的網頁'
    r = requests.get(url, timeout=30)
    r.encoding='GBK'   #增加encoding=‘GBK’，解決中文亂碼問題
    soup = BeautifulSoup(r.text, 'lxml')

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python網絡爬蟲出現亂碼問題的解決方法 python logging模塊寫入中文，文件亂碼的解決方法 python 寫入JSON中文亂碼解決方法【轉】Python BeautifulSoup 中文亂碼解決方法 python logging模塊寫入中文，文件亂碼的解決方法 python抓取中文網頁亂碼通用解決方法使用vscode運行python出現中文亂碼的解決方法 python解決中文亂碼的方法解決python中文亂碼的方法 RestTemplate 中文亂碼解決方法