python爬蟲中文亂碼
前幾天用python來爬取全國行政區划編碼的時候,遇到了中文亂碼的問題,折騰了一會兒,才解決。現特記錄一下,方便以后查看。
我是用python的requests和bs4庫來實現爬蟲,這兩個庫的簡單用法可參照python爬取當當網的書籍信息並保存到csv文件
亂碼未處理前部分代碼
url = '要爬取的網頁'
r = requests.get(url, timeout=30)
soup = BeautifulSoup(r.text, 'lxml')
亂碼原因
我爬取的網頁使用的編碼是GBK。所以要按GBK編碼,才能避免中文亂碼。
解決亂碼的代碼
url = '要爬取的網頁'
r = requests.get(url, timeout=30)
r.encoding='GBK' #增加encoding=‘GBK’,解決中文亂碼問題
soup = BeautifulSoup(r.text, 'lxml')
【原創聲明】轉載請標明出處:https://www.cnblogs.com/surecheun/p/9694052.html