微博爬蟲實踐---搜索關鍵詞


  需求:指定搜索關鍵詞,限定時間段、原創,抓取后存入EXcel或者Mysql

  原理:模擬瀏覽器打開網址,輸入關鍵詞,python解析dom獲取需要信息,存入excel或者mysql

  技術點

  1.爬蟲框架選取 BS4解析

  2.模擬瀏覽器行為 python+selenium+Firefox

  3.存檔 excel相關庫、mysql相關庫

  4.關鍵詞、時間段可配置  ConfigParser庫

  5.數據庫 編號遞增 更新時間

 

  編寫遇到的問題

  1.登錄問題  模擬賬號密碼登入或者cookie登錄

  2.頁面無內容 真實無內容、數據沒有加載出來 有驗證碼防刷  

  3.頁面元素沒有導致失敗 加入隱形等待元素不出現一直等待

  4.無界面操作 Chrome可設置無界面 最新selenium不支持PJS無界面框架慎用

  

 

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM