python爬虫学习之贴吧抓取

本文转载自查看原文 2019-05-16 21:25 542

爬虫学习的一点心得

任务：抓取贴吧主题、作者、创建时间

抓取：requests

解析：xpath，正则表达式

遇到的问题点：

1.headers请求头要加全，以免被反爬（抓取不到任何信息或者抓取信息不全）

2.用xpath解析的时候，我们需要获取到的内容信息在网页源代码中是被注释掉了，通过js在加载页面的时候显示内容，需要先将注释符号利用正则替换掉。

3.保存到CSV中，CSV主要是存取元素为字典的列表；默认newline=‘\n'，中间如果不需要空格，则改成newline=''；encoding='utf-8'，仍然保存的文字为乱码，改成

encoding='utf-8-sig'可解决此问题。

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Python爬虫——抓取贴吧帖子 [Python学习] 简单网络爬虫抓取博客文章及思想介绍爬虫学习笔记（1）-- 利用Python从网页抓取数据 python-实现一个贴吧图片爬虫 Python爬虫-04：贴吧爬虫以及GET和POST的区别 python爬虫(一)_爬虫原理和数据抓取【网络爬虫学习】实战，爬取网页以及贴吧数据 Python简易爬虫爬取百度贴吧图片怎么用Python写爬虫抓取网页数据 Python3简单爬虫抓取网页图片