微博爬虫实践---搜索关键词


  需求:指定搜索关键词,限定时间段、原创,抓取后存入EXcel或者Mysql

  原理:模拟浏览器打开网址,输入关键词,python解析dom获取需要信息,存入excel或者mysql

  技术点

  1.爬虫框架选取 BS4解析

  2.模拟浏览器行为 python+selenium+Firefox

  3.存档 excel相关库、mysql相关库

  4.关键词、时间段可配置  ConfigParser库

  5.数据库 编号递增 更新时间

 

  编写遇到的问题

  1.登录问题  模拟账号密码登入或者cookie登录

  2.页面无内容 真实无内容、数据没有加载出来 有验证码防刷  

  3.页面元素没有导致失败 加入隐形等待元素不出现一直等待

  4.无界面操作 Chrome可设置无界面 最新selenium不支持PJS无界面框架慎用

  

 

  


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM