Scrapy 是一個專業的、高效的爬蟲框架,它使用專業的 Twisted 包(基於事件驅動的網絡引擎包)高效地處理網絡通信,使用 lxml(專業的 XML 處理包)、cssselect 高效地提取 HTML 頁面的有效信息,同時它也提供了有效的線程管理。
安裝scrapy
pip3 install scrapy
在windows如果報錯的話按以下方式安裝(缺少環境,或者直接下載VS): pip3 install wheel 下載twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 進入下載目錄,執行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl pip3 install pywin32 pip3 install scrapy
項目創建與啟動
#scrapy項目創建
scrapy startproject xxx(項目名)-----創建爬蟲項目
cd xxx(項目名)--------必須要進入項目文件
scrapy genspider xx(爬蟲文件) url(起始url,后期可修改)--------創建爬蟲應用
#scrapy項目啟動
scrapy crawl xx(爬蟲文件)----需要進入爬蟲文件所在的目錄
scrapy crawl 爬蟲文件 --nolog:該種執行形式不會顯示執行的日志信息
項目中創建的默認爬蟲文件

1 import scrapy 2 3 4 class FirstbaiduSpider(scrapy.Spider): 5 name = 'firstBaidu'#爬蟲文件(應用)名 6 # allowed_domains = ['https://www.baidu.com/']#域名限定,一般直接注釋 7 start_urls = ['https://www.baidu.com//']#起始url,創建應用時指定的,可修改 8 9 def parse(self, response):#自動訪問起始URL並獲取結果后的回調函數,參數respons為起始請求的響應對象,可以直接調用封裝好的xpath解析 10 pass