需求:指定搜索關鍵詞,限定時間段、原創,抓取后存入EXcel或者Mysql
原理:模擬瀏覽器打開網址,輸入關鍵詞,python解析dom獲取需要信息,存入excel或者mysql
技術點:
1.爬蟲框架選取 BS4解析
2.模擬瀏覽器行為 python+selenium+Firefox
3.存檔 excel相關庫、mysql相關庫
4.關鍵詞、時間段可配置 ConfigParser庫
5.數據庫 編號遞增 更新時間
編寫遇到的問題:
1.登錄問題 模擬賬號密碼登入或者cookie登錄
2.頁面無內容 真實無內容、數據沒有加載出來 有驗證碼防刷
3.頁面元素沒有導致失敗 加入隱形等待元素不出現一直等待
4.無界面操作 Chrome可設置無界面 最新selenium不支持PJS無界面框架慎用