系列文章列表:
scrapy爬蟲學習系列一:scrapy爬蟲環境的准備: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy01.html
scrapy爬蟲學習系列二:scrapy簡單爬蟲樣例學習: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy02.html
scrapy爬蟲學習系列三:scrapy部署到scrapyhub上: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_004_scrapyhub.html
scrapy爬蟲學習系列四:portia的學習入門: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_010_scrapy04.html
scrapy爬蟲學習系列五:圖片的抓取和下載: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_011_scrapy05.html
scrapy爬蟲學習系列六:官方文檔的學習: https://github.com/zhaojiedi1992/My_Study_Scrapy
注意: 我自己新建的一個QQ群(新建的),歡迎大家加入一起學習一起進步 ,群號646187336
這里有個scrapyhub的幫助論壇吧:https://helpdesk.scrapinghub.com/support/solutions
1 scrapyhub簡介
scrapyhub就是提供一個雲平台,讓你的爬蟲程序可以開發和運行在雲平台上。
我這里提供一個樣例的使用過程。
2 github相關方面的准備工作
2.1注冊一個github賬號
注冊頁面:https://github.com/join?source=header-home
注冊過程主要有3步驟,我這里提供3個截圖。
2.2 創建一個github項目
2.2.1 我們從github找到scrapy官方的demo程序,地址https://github.com/scrapy/quotesbot,我們打開這個地址,點擊頁面上面的右上角的fork按鈕,創建一個復制。
2.2.2 如果提示需要郵件確認的話,請登錄你的郵箱點擊鏈接即可。
2.2.3 重復2.2.1步驟,就可以fork一個官方的scrapy deom了。(具體詳細的代碼,可以自己去瞧瞧)
3 使用github賬號登錄scrapyhub網址
3.1 登錄scrapyhub網址
打開scrapyhub的官方網址 https://scrapinghub.com/scrapy-cloud/, 點擊右上角的login按鈕,選擇github登錄方式,接下來就是下一步下一步啦。最后就是如下圖的界面了。
3.2 創建項目
3.3設置下工程參數
3.4設置工程參數
3.5設置工程參數
3.6 設置工程參數
3.7 設置工程參數
3.8設置工程參數
3.9 設置工程參數
3.10 設置工程參數
3.11添加調度計划
3.12 設置調度計划
3.13 查看job執行情況
注意: 我們使用的分鍾級任務,大概需要等1分鍾才有結果。當然你點擊右上角的run去手工運行下。
3.14 數據查看和導出
4. 數據導出的api接口
官方的api地址: https://doc.scrapinghub.com/scrapy-cloud.html#scrapycloud
我們這里導出一個job的某次執行結果吧。
導出的url格式items/:project_id[/:spider_id][/:job_id][/:item_no][/:field_name]
如果我們想導出3.14圖(頁面的url是https://app.scrapinghub.com/p/216687/1/1/items)中的結果,以json格式的形成導出:
可以看出spider_id 就是216687,job_id 就是1 ,item_no 就是1 ,key 我們可以從這個網址查看https://app.scrapinghub.com/account/apikey
所有我們可以訪問https://storage.scrapinghub.com/items/216687/1/1?apikey=3299bbee8aa44e0690c62d2a7ec1db50&format=json