Python爬取中文页面的时候出现的乱码问题

本文转载自查看原文 2016-03-08 13:54 3181 python/ 乱码/ Python

一、读取返回的页面数据

在浏览器打开的时候查看源代码，如果在头部信息中指定了UTF-8

那么再python代码中读取页面信息的时候，就需要指定读取的编码方式：

response.read().decode('utf-8')

二、把中文数据写入到文件的时候

python默认的是按照ACSII的编码往外写，所以中文数据往外写肯定会出现乱码

那么再往外写入文件的时候需要对中文数据进行编码：

fout.write('<td>%s</td>' %(data['title'].encode('utf-8')))

三、写入到HTML文件的时候

为了显示方便，把抓取下来的数据写入到HTML文件里面，在浏览中显示

在写入的时候，需要指定HTML文件的编码方式

如果没有指定默认的是UTF8无BOM编码，直接用浏览打开会产生乱码

所以需要在往外写的时候指定编码方式：

fout.write('<html><head><meta http-equiv="Content-Type" content="text/html;charset=UTF-8"/></head>')

四、设置了以上编码之后还可能会报错，在加入以下代码

import sys
reload(sys)
sys.setdefaultencoding("utf-8")

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 python爬虫入门练习一静态页面文本爬取 (html内中文乱码问题处理) python爬取html中文乱码 Python爬取网址中多个页面的信息初步实现 python 爬取小说，实现不规则页面的翻页爬取 python 中文乱码问题【Python爬虫】之爬取页面内容、图片以及用selenium爬取 requests实例1：京东商品页面的爬取简单爬取html页面的表格中的数据 scrapy (5)-爬取二级页面的内容轻松上手nodeJs爬取想要页面的数据