Pyspider的簡單介紹和初使用

本文轉載自查看原文 2020-01-13 10:33 3649

Pyspider

Pyspider是由國人(binux)編寫的強大的網絡爬蟲系統

Ptspider帶有強大的WebUi / 腳本編輯器 / 任務監控器 / 項目管理器以及結果處理器。他支持多種數據庫后端 / 多種消息隊列 / Javascript 渲染頁面爬去。使用起來非常方便

基本功能

提供了方便易用的 WebUi 系統，可視化的編寫和調試爬蟲
提供爬去進度監控 / 爬去結果查看 / 爬蟲項目管理等功能
支持多種后端數據庫，如：MySQL / MongoDB / Rides 等
支持多種消息隊列，如：RabbimMQ / Beanstalk / Redis / Kombu
提供優先級控制 / 失敗重試 / 定時抓取等
對接了PhantonJS。可以抓取Javascript 渲染的頁面
支持單機和分布式部署，支持 Docker 部署

Pyspider 和 Scrapy

Pyspider  - 提供了 WebUi ，爬蟲編寫 / 調試都是在WebUi 中進行的。
Scrapy    - 原生是不具備這個功能的，他采用的代碼和命令行的操作，但是可以通過對接Portia 實現可視化配置

Pyspider  - 調試非常便捷，WebUi 操作便捷直觀
Scrapy    - 是使用parse 命令進行調試，方便程度不及Pyspider

Pyspider  - 支持PhantomJS 來進行Javascript 渲染頁面的采集。
Scrapy    - 可以對接Scrapy-Splash組件實現，不過需要額外的配置

Pyspider  - 中內置了pyquery 作為選擇器
Scrapy    - 對接了 Xpath / CSS 選擇器和正則

Pyspider  - 的可擴展程度不足，可配置化程度不高。
Scrapy    - 可以通過對接Middleware / Pipelinc / Extension 等組件來實現非常強大的功能。模塊之間的耦合度低，可擴展性高

如果要快速實現一個頁面的抓取，推薦使用 Pyspider ，開發更便捷，如：爬去某個新聞網站內容

如果要對應反爬程度很大，規模較大的爬去。推薦使用 Scrapy ，如：封IP / 封賬號風險大，高頻率驗證的網站

Pyspider 架構

Pyspider 架構主要分為 Scheduler（調度器）/ Fetcher（抓取器）/ Processer（處理器）三個部分，整個爬去過程受到 Monitor（監控器）的監控，抓取的結果被 Result Worker（結果處理器）處理

Scheduler 發起任務調度，Fetcher 負責抓取網頁內容，Processer負責解析網頁，然后將新生成的 Request 發送給 Scheduler 進行調度，將生成的提取結果輸出保存

執行邏輯

Pyspider 的任務執行流程邏輯很清晰。

每個 Pyspider 的項目對應一個python 腳本，該腳本中定義了一個 Handler 類，他有一個 on_start() 方法，爬去守底線調用 on_start() 方法生成最初的抓取任務。然后發送給 Scheduler 進行調度
Scheduler 將抓取任務分發給 Fetcher 進行抓取，Fetcher 執行並得到響應，隨后將響應發送給 Processer
Processer 處理響應並提取出新的 URL 生成新的抓取任務，然后通過消息隊列的方式通知 Schduler 當前抓取任務執行情況，並將新生成的抓取任務發送給 Scheduler 。如果生成了新的提取結果，則將其發送到結果隊列等待Result Worker 處理
Scheduler 接收到新的的抓取任務，然后查詢數據庫，判斷其如果是新的抓取任務或者是需要重試的任務就繼續進行調度，然后將其返回給 Fetcher 進行抓取
不斷重復以上工作。直到所有的人物都執行完畢，抓取結束
抓取結束后。程序會回調 on_start() 方法，這里可以定義后處理過程

Pyspider基本使用

環境准備：

Pyspider
PhantomJS
MongoDB
Pymongo

在下載Pyspider 時會遇到報錯

在 https://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl 中下載python 對應的版本及計算機位數

切換目錄至下載文件所在目錄。進入cmd。進行安裝

然后重新打開cmd，進行pip install pyspider，如果安裝途中出現了。錯誤多試幾次。即可

運行 pyspider -- pyspider all

啟動的時候可能一直卡在result_worker starting 或者出現報錯

ValueError: Invalid configuration: - Deprecated option 'domaincontroller': use 'http_authenticator

如果出現卡頓狀態。在出現 result_worker starting 之前使用 CTRL + C 終止。在次啟動即可。

如果出現了報錯。原因是因為WsgiDAV發布了版本 pre-release 3.x。在安裝包中找到pyspider的資源包，然后找到webui文件里面的webdav.py文件打開，修改第209行即可。

目標位置 ： 'domaincontroller': NeedAuthController(app),


更改為 ：　　http_authenticator':{
        　　　　'HTTPAuthenticator':NeedAuthController(app),
   　　　　 },

再次輸入pyspider all 即可

打開瀏覽器127.0.0.1：5000或者http://localhost:5000/ 打開pyspider的web UI界面，

創建項目

create --> Project Name --> Start URL(s) -- > create

在上面的頁面中：

左側為代碼調試界面
RUN為單步調試爬蟲程序，
左側下半部分可以預覽當前的爬蟲頁面
右側部分為代碼編輯和保存

在創建好項目時。pyspider 就已經幫我生成了一小段代碼(右側部分)，這里的 Handler 就是 pyspider 爬蟲的主類。可以在這里定義爬蟲 / 解析 / 存儲的邏輯，整個爬蟲只需要一個 Handler 就可以完成

在 Handler 類中：

crawl_config -- 這個類屬性可以將整個項目的配置統一寫在這個(代理 等)，配置之后全局生效

on_start() -- 這是爬蟲入口，初時的爬取請求會在這里產生，該方法通過調用crawl() 方法即可新建一個爬取請求，它的第一個參數為爬取的 URL，這里會自動生成為創建項目時輸入的 URL，crawl() 還有有一個參數為 callback,它指定了這個頁面爬取完畢后使用哪個方法進行解析

index_page() -- 結合上面代碼。發現。on_start() 方法。爬取結束后。將 response 交給 index_page()解析。index_page() 對接了 pyquery，直接使用 doc()來解析頁面，解析后進行了便利。調用了 crawl() 方法。又生成了新的爬取請求，同時又指定了 callback

detail_page() -- 同樣接收了 response 作為參數。detail_page() 爬取的是詳情頁的信息，就不會產生新的請求，只對response 對象做解析，解析之后將結果以字典的形式返回

在點擊 RUN 時。如果出現了報錯：

HTTP 599: SSL certificate problem: self signed certificate in certificate chain

在 crawl 方法中加入忽略證書驗證的參數，validate_cert=False

如果出現了：

[E 160329 14:00:56 base_handler:194] crawl() got unexpected keyword argument: ['validate_cert']

無法匹配到 validate_cert 參數，那么則是 PySpider 本身的問題，可以在GitHub下載0.4.0版本

https://github.com/binux/pyspider

下載完畢后進行解壓。將 pyspider 下的所有文件目錄更新到之前的 pyspider 中

如果。出現了web 預覽頁面大小問題。可以在 C:\Python36\Lib\site-packages\pycparser\webui\static\debug.min.css 中找到 iframe ，將其替換為 iframe{border-width:0;width:100%;height:900px !important}

更改完畢后。清空瀏覽器緩存，重啟瀏覽器即可。

案列：

以去哪網為案列

點擊RUN。調用on_start()方法。生成新的請求（follows提示），點擊follows，在點擊小箭頭。發起請求

可以點擊web / html 預覽頁面和查看源代碼

可以使用spider 提供的 CSS選擇器來定位某個標簽。來進行查找內容

點擊Save后。點擊RUN，獲取當前頁面的所有URL（代碼之前寫好的。會出現不同現象）

由於要獲取多個頁面的信息。所以在代碼部分。需要添加，會看到最有最后一條是第二頁的URL

點擊其中的某一條后的小箭頭。點擊RUN。返回詳情頁的信息

利用CSS選擇器進行定位。在 detail_page 方法中進行獲取詳細信息

在項目首頁中可以看到下面所展示

group ：定義分組。方便管理
rate / burst ：代表當前的爬取速率，rate代碼一秒發出多少個請求，burst相當於流量控制中的令牌算法的令牌數量。rate / burst 越大。爬取速率越快。
progress ：5m / 1h / 1d 代表最近5分鍾 / 1小時 / 一天內的請求情況。all 代表所有的請求情況，顏色不同代表不同的狀態，藍色代表等待被執行的請求，綠色代表成功的請求，黃色代表請求失敗后等在重試的請求，紅色代表失敗次數過多而被忽略的請求
run ：執行
Actice Tasks ：查看最近請求的詳細情況
Result ：查看爬取結果

以上就是pyspider 的使用

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Pyspider的基本使用 -- 入門 Pyspider pyspider安裝使用遇到的坑 MSBuild的簡單介紹與使用 Eigen介紹及簡單使用 docker介紹和簡單使用 Epplus 使用的簡單介紹 OCUpload的簡單介紹與使用 webService的介紹與簡單使用 EChart使用簡單介紹