導入配置
如何優雅的導入scrapy中settings.py的配置參數呢?總不能用from scrapy import settings
吧,或者from scrapy.settings import XXX
吧。這看起來一點逼格都沒有。
scrapy提供了導入設置的方法:from_crawler
@classmethod
def from_crawler(cls, crawler):
server = crawler.settings.get('SERVER')
# FIXME: for now, stats are only supported from this constructor
return cls(server)
接着,只要在__init__接收這些參數就可以了。
def __init__(self, server):
self.server = server
而在一些官方的組件的源碼中會這樣使用,不過這看起來有點多此一舉
@classmethod
def from_settings(cls, settings):
server = settings.get('SERVER')
return cls(server)
@classmethod
def from_crawler(cls, crawler):
# FIXME: for now, stats are only supported from this constructor
return cls.from_settings(crawler.settings)
另外,並不是所有的類都可以使用這個類方法。只有像插件,中間件,信號管理器和項目管道等這些組件才能使用這個類方法來導入配置,如果是自己寫的spider或者自定義文件並沒有,需要使用如下方法導入:
from scrapy.utils.project import get_project_settings
settings = get_project_settings()
這里的settings就是包含settings.py的所有配置的字典了。
主要配置參數
scrapy中的有很多配置,說一下比較常用的幾個:
- CONCURRENT_ITEMS:項目管道最大並發數
- CONCURRENT_REQUESTS: scrapy下載器最大並發數
- DOWNLOAD_DELAY:訪問同一個網站的間隔時間,單位秒。一般默認為0.5*
DOWNLOAD_DELAY
到1.5 *DOWNLOAD_DELAY
之間的隨機值。也可以設置為固定值,由RANDOMIZE_DOWNLOAD_DELAY
指定是否固定,默認True隨機。這里的同一個網站可以是域名也可以是IP,由CONCURRENT_REQUESTS_PER_IP
的值決定。 - CONCURRENT_REQUESTS_PER_DOMAIN:對單個域名的最大並發
- CONCURRENT_REQUESTS_PER_IP:對單個IP的最大並發,如果值不為0,則
CONCURRENT_REQUESTS_PER_DOMAIN
參數被忽略,而且DOWNLOAD_DELAY
這個參數的同一網站指的是IP - DEFAULT_ITEM_CLASS:執行scrapy shell 命令的默認item類,默認
scrapy.item.Item
- DEPTH_LIMIT:爬取的最大深度
- DEPTH_PRIORITY:正值為廣度優先(BFO),負值為深度優先(DFO),計算公式:
request.priority = request.priority - ( depth * DEPTH_PRIORITY )
- COOKIES_ENABLED: 是否啟用cookie中間件,也就是自動cookie管理
- COOKIES_DEBUG:將請求cookie和響應包含Set-Cookie的寫入日志
- DOWNLOADER_MIDDLEWARE:下載器中間件和優先級的字典
- DEFAULT_REQUEST_HEADERS:用於Scrapy HTTP請求的默認標頭
- DUPEFILTER_CLASS:去重的類,可以改成使用布隆過濾器,而不使用默認的
- LOG_ENABLED:是否啟用日志
- LOG_FILE:日志文件路徑,默認為None
- LOG_FORMAT:日志格式化表達式
- LOG_DATEFORMAT:
LOG_FORMAT
中的時間格式化表達式 - LOG_LEVEL:最低日志級別,默認DEBUG,可用:CRITICAL, ERROR, WARNING, INFO, DEBUG
- LOG_STDOUT:是否將所有標准輸出(和錯誤)將被重定向到日志,例如print也會被記錄在日志
- LOG_SHORT_NAMES:如果為True,則日志將僅包含根路徑;如果設置為False,則顯示負責日志輸出的組件
- LOGSTATS_INTERVAL:每次統計記錄打印輸出之間的間隔
- MEMDEBUG_ENABLED:是否啟用內存調試
- REDIRECT_MAX_TIMES:定義可以重定向請求的最長時間
- REDIRECT_PRIORITY_ADJUST:調整重定向請求的優先級,為正值時優先級高
- RETRY_PRIORITY_ADJUST:調整重試請求的優先級
- ROBOTSTXT_OBEY:是否遵循robot協議
- SCRAPER_SLOT_MAX_ACTIVE_SIZE:正在處理響應數據的軟限制(以字節為單位),如果所有正在處理的響應的大小總和高於此值,Scrapy不會處理新的請求。
- SPIDER_MIDDLEWARES:蜘蛛中間件
- USER_AGENT:默認使用的User-Agent
我也是新手,並沒有系統性的使用scrapy,只是用來練習過一些小項目,所以如果有錯誤還請指出。
面對這么多的設置總不能用一次就查一次吧,所以我們需要修改scrapy startproject
命令默認創建的模板文件中的settings.py
的內容,將以上的注釋和參數都保存在這個文件中,每當我們創建一個新的工程,我們只需要看一下settings.py中哪個參數需要更改就行了。模板文件在Anaconda\Lib\site-packages\scrapy\templates\project\module
(如果是anaconda的話)
settings.py中大部分配置的注釋:
# 項目名稱
BOT_NAME = '$project_name'
SPIDER_MODULES = ['$project_name.spiders']
NEWSPIDER_MODULE = '$project_name.spiders'
# 在項目處理器(也稱為“ 項目管道”)中並行處理的最大並發項目數(每個響應),默認100。
#CONCURRENT_ITEMS = 100
# Scrapy下載器將執行的並發(即,並發)請求的最大數量,默認16
CONCURRENT_REQUESTS = 8
# 從同一網站下載連續頁面之前,下載程序應等待的時間(以秒為單位)。
# 這可以用來限制爬網速度,以避免對服務器造成太大的沖擊。支持小數。
# 默認情況下,Scrapy不會在請求之間等待固定的時間,而是使用0.5 * DOWNLOAD_DELAY和1.5 * DOWNLOAD_DELAY之間的隨機間隔。
#DOWNLOAD_DELAY = 0
# 將對任何單個域執行的並發(即,並發)請求的最大數量,默認8
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
# 將對任何單個IP執行的並發(即,並發)請求的最大數量,默認0。
# 如果非0,CONCURRENT_REQUESTS_PER_DOMAIN這個參數會被忽略,即按IP不按域名。DOWNLOAD_DELAY也是按IP
#CONCURRENT_REQUESTS_PER_IP = 16
# 將用於實例化Scrapy shell中的項目的默認類
#DEFAULT_ITEM_CLASS = 'scrapy.item.Item'
# 對於任何站點,將允許爬網的最大深度。如果為零,則不施加限制
#DEPTH_LIMIT = 0
# 根據DEPTH_PRIORITY的值取決於深度優先或廣度優先,即正值為廣度優先(BFO),負值為深度優先(DFO)
# 計算公式:request.priority = request.priority - ( depth * DEPTH_PRIORITY )
#DEPTH_PRIORITY = 0
# 是否啟用cookie
COOKIES_ENABLED = False
# 如果啟用,Scrapy將記錄請求中發送的所有cookie(即Cookie 標頭)和響應中接收的所有cookie(即Set-Cookie標頭)
#COOKIES_DEBUG = False
# 是否收集詳細的深度統計信息。如果啟用此功能,則在統計信息中收集每個深度的請求數
#DEPTH_STATS_VERBOSE = False
# 是否啟用DNS內存緩存
#DNSCACHE_ENABLED = True
# DNS內存緩存大小
#DNSCACHE_SIZE = 10000
# 處理DNS查詢的超時時間(以秒為單位)。支持浮動
#DNS_TIMEOUT = 60
# 用於爬網的下載器
#DOWNLOADER = 'scrapy.core.downloader.Downloader'
# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False
# 包含您的項目中啟用的下載器中間件及其命令的字典
#DOWNLOADER_MIDDLEWARE = {}
# 用於Scrapy HTTP請求的默認標頭。它們被填充在 DefaultHeadersMiddleware
DEFAULT_REQUEST_HEADERS = {
}
# Scrapy中默認啟用的下載程序中間件的字典。低值更接近引擎,高值更接近下載器,
# 不要試圖修改此設置,請修改DOWNLOADER_MIDDLEWARE
#DOWNLOADER_MIDDLEWARES_BASE = {
# 'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
# 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
# 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
# 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
# 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
# 'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
# 'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
# 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
# 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
# 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
# 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
# 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
# 'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
# 'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
# }
# 是否啟用下載器統計信息收集
#DOWNLOADER_STATS = True
# 包含在項目中啟用的請求下載處理程序的字典
#DOWNLOAD_HANDLERS = {}
# 包含請求下載處理程序的默認字典
# 如果要禁用FTP處理程序,請設置DOWNLOAD_HANDLERS = {'ftp': None}
#DOWNLOAD_HANDLERS_BASE = {
# 'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',
# 'http': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
# 'https': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
# 's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler',
# 'ftp': 'scrapy.core.downloader.handlers.ftp.FTPDownloadHandler',
# }
# 下載程序的超時時間(以秒為單位)
#DOWNLOAD_TIMEOUT = 180
# 載程序將下載的最大響應大小(以字節為單位,默認1024MB),為0則不限制
#DOWNLOAD_MAXSIZE = 1073741824
# 下載程序將開始警告的響應大小(以字節為單位,默認32MB)
#DOWNLOAD_WARNSIZE = 33554432
# 聲明的Content-Length與服務器發送的內容不匹配,是否觸發異常ResponseFailed([_DataLoss])
# 如果為False,可以在爬蟲文件中判斷並處理 if 'dataloss' in response.flags:
#DOWNLOAD_FAIL_ON_DATALOSS = True
# 用於檢測和過濾重復請求的類
#DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter'
# 默認情況下,RFPDupeFilter僅記錄第一個重復的請求。設置DUPEFILTER_DEBUG為True它將記錄所有重復的請求。
#DUPEFILTER_DEBUG = False
# 包含您的項目中啟用的擴展及其順序的字典
#EXTENSIONS = {}
# 包含默認情況下在Scrapy中可用的擴展程序及其順序的字典
#EXTENSIONS_BASE = {
# 'scrapy.extensions.corestats.CoreStats': 0,
# 'scrapy.extensions.telnet.TelnetConsole': 0,
# 'scrapy.extensions.memusage.MemoryUsage': 0,
# 'scrapy.extensions.memdebug.MemoryDebugger': 0,
# 'scrapy.extensions.closespider.CloseSpider': 0,
# 'scrapy.extensions.feedexport.FeedExporter': 0,
# 'scrapy.extensions.logstats.LogStats': 0,
# 'scrapy.extensions.spiderstate.SpiderState': 0,
# 'scrapy.extensions.throttle.AutoThrottle': 0,
# }
# 包含要使用的項目管道及其順序的字典。值是任意的,但是習慣上將它們定義在0-1000范圍內。低值優先於高值
#ITEM_PIPELINES = {}
# 是否啟用日志記錄
#LOG_ENABLED = True
# 用於日志記錄的編碼
#LOG_ENCODING = 'utf-8'
# 用於記錄輸出的文件名
#LOG_FILE = None
# 用於格式化日志消息的字符串
#LOG_FORMAT = '%(asctime)s [%(name)s] %(levelname)s: %(message)s'
# 用於格式化日期/時間的字符串,用於改變LOG_FORMAT 中的asctime占位符
#LOG_DATEFORMAT = '%Y-%m-%d %H:%M:%S'
# 用於格式化不同操作的日志消息的類
#LOG_FORMATTER = "scrapy.logformatter.LogFormatter"
# 最低記錄級別, 可用:CRITICAL, ERROR, WARNING, INFO, DEBUG
#LOG_LEVEL = 'DEBUG'
# 如果為True,所有標准輸出(和錯誤)將被重定向到日志,例如print也會被記錄在日志
#LOG_STDOUT = False
# 如果為True,則日志將僅包含根路徑;如果設置為False,則顯示負責日志輸出的組件
#LOG_SHORT_NAMES = False
# 每次統計記錄打印輸出之間的間隔(以秒為單位)
#LOGSTATS_INTERVAL = 60.0
# 是否啟用內存調試
#MEMDEBUG_ENABLED = False
# 啟用內存調試后,如果此設置不為空,則會將內存報告發送到指定的郵箱地址,否則該報告將被寫入日志。
# 例如:MEMDEBUG_NOTIFY = ['user@example.com']
#MEMDEBUG_NOTIFY = []
# 是否啟用內存使用擴展。此擴展跟蹤該進程使用的峰值內存(將其寫入統計信息)。
# 當超過內存限制時,它還可以選擇關閉Scrapy進程,並在發生這種情況時通過電子郵件通知
#MEMUSAGE_ENABLED = True
# 關閉Scrapy之前允許的最大內存量
#MEMUSAGE_LIMIT_MB = 0
#MEMUSAGE_CHECK_INTERVAL_SECONDS = 60.0
# 電子郵件列表,用於通知是否已達到內存限制
#MEMUSAGE_NOTIFY_MAIL = False
# 發送警告電子郵件通知最大內存之前允許的最大內存量(以兆字節為單位)。如果為零,則不會發出警告
#MEMUSAGE_WARNING_MB = 0
# 使用genspider命令創建爬蟲的模板
#NEWSPIDER_MODULE = ""
# 如果啟用,Scrapy將在從同一網站獲取請求的同時等待隨機的時間(介於0.5 * DOWNLOAD_DELAY和1.5 *之間DOWNLOAD_DELAY)
#RANDOMIZE_DOWNLOAD_DELAY = True
# Twisted Reactor線程池大小的最大限制。這是各種Scrapy組件使用的通用多用途線程池。
# 線程DNS解析器,BlockingFeedStorage,S3FilesStore僅舉幾例。
# 如果遇到阻塞IO不足的問題,請增加此值。
#REACTOR_THREADPOOL_MAXSIZE = 10
# 定義可以重定向請求的最長時間。超過此最大值后,將按原樣返回請求的響應
#REDIRECT_MAX_TIMES = 20
# 調整重定向請求的優先級,為正則優先級高
#REDIRECT_PRIORITY_ADJUST = 2
# 調整重試請求的優先級
#RETRY_PRIORITY_ADJUST = -1
# 是否遵循robot協議
ROBOTSTXT_OBEY = False
# 用於解析robots.txt文件的解析器后端
#ROBOTSTXT_PARSER = 'scrapy.robotstxt.ProtegoRobotParser'
#ROBOTSTXT_USER_AGENT = None
# 用於爬網的調度程序
#SCHEDULER = 'scrapy.core.scheduler.Scheduler'
# 設置為True將記錄有關請求調度程序的調試信息
#SCHEDULER_DEBUG = False
# 調度程序將使用的磁盤隊列的類型。其他可用類型:scrapy.squeues.PickleFifoDiskQueue,
# scrapy.squeues.MarshalFifoDiskQueue, scrapy.squeues.MarshalLifoDiskQueue
#SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleLifoDiskQueue'
# 調度程序使用的內存隊列的類型。其他可用類型: scrapy.squeues.FifoMemoryQueue
#SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.LifoMemoryQueue'
# 調度程序使用的優先級隊列的類型。另一種可用的類型是 scrapy.pqueues.DownloaderAwarePriorityQueue
#SCHEDULER_PRIORITY_QUEUE = 'scrapy.pqueues.ScrapyPriorityQueue'
# 正在處理響應數據的軟限制(以字節為單位)。
# 如果所有正在處理的響應的大小總和高於此值,Scrapy不會處理新的請求
#SCRAPER_SLOT_MAX_ACTIVE_SIZE = 5_000_000
# 包含您的項目中啟用的蜘蛛合約的字典,用於測試蜘蛛
#SPIDER_CONTRACTS = {}
# 包含Scrapy合同中默認啟用的Scrapy合同的字典
#SPIDER_CONTRACTS_BASE = {
# 'scrapy.contracts.default.UrlContract' : 1,
# 'scrapy.contracts.default.ReturnsContract': 2,
# 'scrapy.contracts.default.ScrapesContract': 3,
# }
# 將用於加載蜘蛛的類
#SPIDER_LOADER_CLASS = 'scrapy.spiderloader.SpiderLoader'
# 包含您的項目中啟用的蜘蛛中間件及其命令的字典
#SPIDER_MIDDLEWARES = {}
#SPIDER_MIDDLEWARES_BASE = {
# 'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
# 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
# 'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
# 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
# 'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
# }
# Scrapy將在其中尋找蜘蛛的模板列表
#SPIDER_MODULES = {}
# 用於收集統計信息的類
#STATS_CLASS = 'scrapy.statscollectors.MemoryStatsCollector'
# 蜘蛛完成后,將Scrapy統計信息轉儲到Scrapy日志中
#STATS_DUMP = True
# 蜘蛛抓取完畢后發送Scrapy統計信息的郵箱列表
#STATSMAILER_RCPTS = []
# 指定是否 將啟用telnet控制台
#TELNETCONSOLE_ENABLED = True
# 用於telnet控制台的端口范圍。如果設置為None或0,則使用動態分配的端口
#TELNETCONSOLE_PORT = [6023, 6073]
# 使用startproject命令創建新項目和使用 genspider命令創建新的Spider時要在其中查找模板的目錄
#TEMPLATES_DIR = "templates"
# 允許抓取的URL的最大URL長度
#URLLENGTH_LIMIT = 2083
# 爬網時使用的默認User-Agent
#USER_AGENT = "Scrapy/VERSION (+https://scrapy.org)"