scrapy爬蟲學習系列四:portia的學習入門


系列文章列表:

scrapy爬蟲學習系列一:scrapy爬蟲環境的准備:       http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy01.html

scrapy爬蟲學習系列二:scrapy簡單爬蟲樣例學習:  http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy02.html

scrapy爬蟲學習系列三:scrapy部署到scrapyhub上:   http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_004_scrapyhub.html

scrapy爬蟲學習系列四:portia的學習入門:       http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_010_scrapy04.html

scrapy爬蟲學習系列五:圖片的抓取和下載:                 http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_011_scrapy05.html

scrapy爬蟲學習系列六:官方文檔的學習:                     https://github.com/zhaojiedi1992/My_Study_Scrapy

 注意: 我自己新建的一個QQ群(新建的),歡迎大家加入一起學習一起進步 ,群號646187336 

 

portia的簡介:

Portia是我們的開源可視化爬蟲工具,可讓您在不需要任何編程知識的情況下爬取網站!簡單地注釋您感興趣的頁面,Portia將創建一個蜘蛛來從類似的頁面提取數據

scrapyhub上的一些簡介視頻(需翻牆): https://helpdesk.scrapinghub.com/support/solutions/articles/22000201027-learn-portia-video-tutorials-

scrapyhub上的完整入門手冊: https://helpdesk.scrapinghub.com/support/solutions/articles/22000200442-using-portia-the-complete-beginner-s-guide

portia官方幫助: http://portia.readthedocs.org/en/2.0-docs/

前言:

本文打算使用scrapy官方提供的demo網頁(http://quotes.toscrape.com/page/1/)執行工程創建,這個網頁相信大家都很熟悉了。那我們這就開始吧。

 

注意: 下面圖片很多, 難免看不清楚的, 可以使用ctrl+鼠標滾輪縮放網頁,方便你更清楚看清圖片。

1.打開官網https://app.scrapinghub.com/

2.創建工程

3.設置開始抓取網頁

4.創建爬蟲

5.創建樣例頁

 

6.設置元素獲取方式

6.1添加content字段

6.2添加author字段

6.3添加tag字段

7.運行爬蟲

8.查看爬蟲結果

9.查看爬蟲運行結果

10.查看item結果

11.下載我們可視化的源碼吧

我這個時間下載到的scrapy貌似沒法運行,貌似官方網址有點問題,但是portia是可以用的。當然我們可以使用portia2code去轉換portia代碼為scrapy代碼。

具體步驟可以參考如下網址:https://helpdesk.scrapinghub.com/support/solutions/articles/22000188424-how-do-i-download-my-portia-2-0-project-into-a-scrapy-project-

好了。我們使用的portia就是可以獲取指定網頁的數據,詳細的大家可以自己摸索摸索。

注意: 現在官方修復了這個問題, 今天我再去下載的時候可以直接使用了。 也就不用protia2code轉換了。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM