系列文章列表:
scrapy爬蟲學習系列一:scrapy爬蟲環境的准備: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy01.html
scrapy爬蟲學習系列二:scrapy簡單爬蟲樣例學習: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy02.html
scrapy爬蟲學習系列三:scrapy部署到scrapyhub上: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_004_scrapyhub.html
scrapy爬蟲學習系列四:portia的學習入門: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_010_scrapy04.html
scrapy爬蟲學習系列五:圖片的抓取和下載: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_011_scrapy05.html
scrapy爬蟲學習系列六:官方文檔的學習: https://github.com/zhaojiedi1992/My_Study_Scrapy
注意: 我自己新建的一個QQ群(新建的),歡迎大家加入一起學習一起進步 ,群號646187336
portia的簡介:
Portia是我們的開源可視化爬蟲工具,可讓您在不需要任何編程知識的情況下爬取網站!簡單地注釋您感興趣的頁面,Portia將創建一個蜘蛛來從類似的頁面提取數據
scrapyhub上的一些簡介視頻(需翻牆): https://helpdesk.scrapinghub.com/support/solutions/articles/22000201027-learn-portia-video-tutorials-
scrapyhub上的完整入門手冊: https://helpdesk.scrapinghub.com/support/solutions/articles/22000200442-using-portia-the-complete-beginner-s-guide
portia官方幫助: http://portia.readthedocs.org/en/2.0-docs/
前言:
本文打算使用scrapy官方提供的demo網頁(http://quotes.toscrape.com/page/1/)執行工程創建,這個網頁相信大家都很熟悉了。那我們這就開始吧。
注意: 下面圖片很多, 難免看不清楚的, 可以使用ctrl+鼠標滾輪縮放網頁,方便你更清楚看清圖片。
1.打開官網https://app.scrapinghub.com/
2.創建工程
3.設置開始抓取網頁
4.創建爬蟲
5.創建樣例頁
6.設置元素獲取方式
6.1添加content字段
6.2添加author字段
6.3添加tag字段
7.運行爬蟲
8.查看爬蟲結果
9.查看爬蟲運行結果
10.查看item結果
11.下載我們可視化的源碼吧
我這個時間下載到的scrapy貌似沒法運行,貌似官方網址有點問題,但是portia是可以用的。當然我們可以使用portia2code去轉換portia代碼為scrapy代碼。
好了。我們使用的portia就是可以獲取指定網頁的數據,詳細的大家可以自己摸索摸索。
注意: 現在官方修復了這個問題, 今天我再去下載的時候可以直接使用了。 也就不用protia2code轉換了。