Python爬取中文頁面的時候出現的亂碼問題

本文轉載自查看原文 2016-03-08 13:54 3181 python/ 亂碼/ Python

一、讀取返回的頁面數據

在瀏覽器打開的時候查看源代碼，如果在頭部信息中指定了UTF-8

那么再python代碼中讀取頁面信息的時候，就需要指定讀取的編碼方式：

response.read().decode('utf-8')

二、把中文數據寫入到文件的時候

python默認的是按照ACSII的編碼往外寫，所以中文數據往外寫肯定會出現亂碼

那么再往外寫入文件的時候需要對中文數據進行編碼：

fout.write('<td>%s</td>' %(data['title'].encode('utf-8')))

三、寫入到HTML文件的時候

為了顯示方便，把抓取下來的數據寫入到HTML文件里面，在瀏覽中顯示

在寫入的時候，需要指定HTML文件的編碼方式

如果沒有指定默認的是UTF8無BOM編碼，直接用瀏覽打開會產生亂碼

所以需要在往外寫的時候指定編碼方式：

fout.write('<html><head><meta http-equiv="Content-Type" content="text/html;charset=UTF-8"/></head>')

四、設置了以上編碼之后還可能會報錯，在加入以下代碼

import sys
reload(sys)
sys.setdefaultencoding("utf-8")

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲入門練習一靜態頁面文本爬取 (html內中文亂碼問題處理) python爬取html中文亂碼 Python爬取網址中多個頁面的信息初步實現 python 爬取小說，實現不規則頁面的翻頁爬取 python 中文亂碼問題【Python爬蟲】之爬取頁面內容、圖片以及用selenium爬取 requests實例1：京東商品頁面的爬取簡單爬取html頁面的表格中的數據 scrapy (5)-爬取二級頁面的內容輕松上手nodeJs爬取想要頁面的數據