07.08自我總結
一.Scrapy爬蟲框架
大體框架
2個橋梁
二.常用命令
全局命令
-
startproject
語法:
scrapy startproject <project_name>
這個命令是scrapy最為常用的命令之一,它將會在當前目錄下創建一個名為
<project_name>
的項目。 -
settings
語法:
scrapy settings [options]
該命令將會輸出Scrapy默認設定,當然如果你在項目中運行這個命令將會輸出項目的設定值。
-
runspider
語法:
scrapy runspider <spider_file.py>
在未創建項目的情況下,運行一個編寫在Python文件中的spider。
-
shell
語法:
scrapy shell [url]
以給定的URL(如果給出)或者空(沒有給出URL)啟動Scrapy shell。
例如,
scrapy shell http://www.baidu.com
將會打開百度URL,
並且啟動交互式命令行,可以用來做一些測試。
-
fetch
語法:
scrapy fetch <url>
使用Scrapy下載器(downloader)下載給定的URL,並將獲取到的內容送到標准輸出。簡單的來說,就是打印url的html代碼。
-
view
語法:
scrapy view <url>
在你的默認瀏覽器中打開給定的URL,並以Scrapy spider獲取到的形式展現。 有些時候spider獲取到的頁面和普通用戶看到的並不相同,一些動態加載的內容是看不到的, 因此該命令可以用來檢查spider所獲取到的頁面。
-
version
語法:
scrapy version [-v]
輸出Scrapy版本。配合 -v 運行時,該命令同時輸出Python, Twisted以及平台的信息。
項目命令
-
crawl
語法:
scrapy crawl <spider_name>
使用你項目中的spider進行爬取,即啟動你的項目。這個命令將會經常用到,我們會在后面的內容中經常使用。
-
check
語法:
crapy check [-l] <spider>
運行contract檢查,檢查你項目中的錯誤之處。
-
list
語法:
scrapy list
列出當前項目中所有可用的spider。每行輸出一個spider。
-
genspider
語法:
scrapy genspider [-t template] <name> <domain>
在當前項目中創建spider。該方法可以使用提前定義好的模板來生成spider。您也可以自己創建spider的源碼文件。