Scrapy 提供了內置的 Telnet 終端,以供檢查,控制 Scrapy 運行的進程。Telnet 僅僅是一個運行在 Scrapy 進程中的普通 Python 終端。因此你可以在其中做任何是。
Telnet 終端是一個自帶的 Scrapy 擴展。該擴展默認為啟用,不過你也可以關閉。
如何訪問
Telnet 終端監聽設置中定義的 TELNETCONSOLE_PORT,默認為 6023,訪問 telnet 請輸入:
telnet localhost 6023 >>>
Windows 及大多數 Linux 發行版都自帶了所需的 telnet 程序。
telnet 終端中可用的變量
telnet 僅僅是一個運行在 Scrapy 進程中的普通 Python 終端。因此你可以做任何事情,甚至是導入新終端。
telnet 為了方便提供了一些默認定義的變量:
快捷名稱 | 描述 |
crawler |
Scrapy Crawler (scrapy.crawler.Crawler 對象) |
engine |
Crawler.engine屬性 |
spider |
當前激活的爬蟲(spider) |
slot |
the engine slot |
extensions |
擴展管理器(manager) (Crawler.extensions屬性) |
stats |
狀態收集器 (Crawler.stats屬性) |
settings |
Scrapy設置(setting)對象 (Crawler.settings屬性) |
est |
打印引擎狀態的報告 |
prefs |
針對內存調試 (參考調試內存溢出) |
p |
pprint.pprint 函數的簡寫 |
hpy |
針對內存調試 (參考 調試內存溢出) |
Telnet console usage examples
查看引擎狀態
在終端中你可以使用 Scrapy 引擎的 est() 方法來快速查看狀態:
telnet localhost 6023 >>> est() Execution engine status time()-engine.start_time : 8.62972998619 engine.has_capacity() : False len(engine.downloader.active) : 16 engine.scraper.is_idle() : False engine.spider.name : followall engine.spider_is_idle(engine.spider) : False engine.slot.closing : False len(engine.slot.inprogress) : 16 len(engine.slot.scheduler.dqs or []) : 0 len(engine.slot.scheduler.mqs) : 92 len(engine.scraper.slot.queue) : 0 len(engine.scraper.slot.active) : 0 engine.scraper.slot.active_size : 0 engine.scraper.slot.itemproc_size : 0 engine.scraper.slot.needs_backout() : False
暫停,恢復和停止 Scrapy 引擎
#暫停: telnet localhost 6023 >>> engine.pause() >>> #恢復: telnet localhost 6023 >>> engine.unpause() >>> #停止: telnet localhost 6023 >>> engine.stop() Connection closed by foreign host.
Telnet 終端信號
scrapy.telnet.update_telnet_vars(telnet_vars)
在 telnet 終端開啟前發送該信號。您可以掛載(hook up)該信號來添加,移除或更新 telnet 本地命名空間可用的變量。您可以通過在您的處理函數(handler)中更新 telnet_vars 字典來實現該修改。
參數: telnet_vars (dict) – telnet 變量的字典
Telnet 設定
以下是終端的一些設定:
TELNETCONSOLE_PORT
Default:[6023, 6073]
telnet 終端使用的端口范圍。如果設為 None
或 0
, 則動態分配端口。
TELNETCONSOLE_HOST
默認: '127.0.0.1'
telnet 終端監聽的接口(interface)。