python爬虫学习之贴吧抓取


爬虫学习的一点心得

任务:抓取贴吧主题、作者、创建时间

抓取:requests

解析:xpath,正则表达式

遇到的问题点:

1.headers请求头要加全,以免被反爬(抓取不到任何信息或者抓取信息不全)

 

2.用xpath解析的时候,我们需要获取到的内容信息在网页源代码中是被注释掉了,通过js在加载页面的时候显示内容,需要先将注释符号利用正则替换掉

3.保存到CSV中,CSV主要是存取元素为字典的列表;默认newline=‘\n',中间如果不需要空格,则改成newline='';encoding='utf-8',仍然保存的文字为乱码,改成

encoding='utf-8-sig'可解决此问题。

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM