scrapy框架簡介與安裝啟動


  Scrapy 是一個專業的、高效的爬蟲框架,它使用專業的 Twisted 包(基於事件驅動的網絡引擎包)高效地處理網絡通信,使用 lxml(專業的 XML 處理包)、cssselect 高效地提取 HTML 頁面的有效信息,同時它也提供了有效的線程管理。

安裝scrapy

pip3 install scrapy

在windows如果報錯的話按以下方式安裝(缺少環境,或者直接下載VS):
    pip3 install wheel
    下載twisted   https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    進入下載目錄,執行  pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl
    pip3 install pywin32 pip3 install scrapy

項目創建與啟動

#scrapy項目創建
scrapy startproject xxx(項目名)-----創建爬蟲項目
cd xxx(項目名)--------必須要進入項目文件
scrapy genspider xx(爬蟲文件) url(起始url,后期可修改)--------創建爬蟲應用
#scrapy項目啟動
scrapy crawl xx(爬蟲文件)----需要進入爬蟲文件所在的目錄
scrapy crawl 爬蟲文件 --nolog:該種執行形式不會顯示執行的日志信息

    

    

 項目中創建的默認爬蟲文件
 1 import scrapy
 2 
 3 
 4 class FirstbaiduSpider(scrapy.Spider):
 5     name = 'firstBaidu'#爬蟲文件(應用)名
 6     # allowed_domains = ['https://www.baidu.com/']#域名限定,一般直接注釋
 7     start_urls = ['https://www.baidu.com//']#起始url,創建應用時指定的,可修改
 8 
 9     def parse(self, response):#自動訪問起始URL並獲取結果后的回調函數,參數respons為起始請求的響應對象,可以直接調用封裝好的xpath解析
10         pass
默認創建的爬蟲文件

 

 

 


 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM