- 安裝scrapyd
pip3 install scrapy看看是否能夠啟動 - 運行 scrapyd
如果報錯 bash: scrapyd: command not found
找到python3安裝位置查看是否已安裝scrapyd如果安裝那么便配置軟連接
ln -s /usr/local/python3/bin/scrapy /usr/bin/scrapy scrapy軟連接
ln -s /usr/local/python3/bin/scrapyd /usr/bin/scrapyd scrapyd軟連接
再次運行scrapyd成功運行
修改scrapyd配置文件可以遠程訪問 - 先創建scrapyd.config 文件,scrapyd運行時會自動訪問
mkdir /etc/scrapyd 創建文件
vi /etc/scrapyd/scrapyd.conf 寫入配置文件
[scrapyd] # 網頁和Json服務監聽的IP地址,默認為127.0.0.1 修改成 0.0.0.0可以遠程訪問 bind_address = 127.0.0.1 # 監聽的端口,默認為6800 http_port = 6800 # 是否打開debug模式,默認為off debug = off # 每個CPU可啟用的Scrapy 進程數,默認為4 max_proc_per_cpu = 4 # 可啟用的最多進程數,默認為0.如果未設置或者設為0,則使用的最多進程數=CPU數量*max_proc_per_cpu max_proc = 0 # 項目eggs生成目錄,默認為項目目錄下eggs eggs_dir = eggs # 項目日志生成目錄,默認為項目目錄下logs,如果不想要生成日志,可以直接設置成空 logs_dir = logs items_dir = # 項目dbs生成目錄,默認為項目目錄下dbs dbs_dir = dbs # 爬取的items存儲的文件夾(版本0.15.以上),默認為空,不存儲。 items_dir = # 每個爬蟲保持的完成任務數,默認為5.(版本0.15.以上,以前版本中為logs_to_keep) jobs_to_keep = 5 # 保持的完成任務進程數。默認為100.(版本0.14.以上) finished_to_keep = 100 # 輪訓請求隊列的時間間隔。默認為5s,可以為浮點數 poll_interval = 5.0 # 啟動子進程的模塊。可以使用自定義 runner = scrapyd.runner # 返回可用於twisted的application,可繼承於Scrapyd添加和移除自己的組件和服務。 https://twistedmatrix.com/documents/current/core/howto/application.html查看更多 application = scrapyd.app.application launcher = scrapyd.launcher.Launcher # twisted的web資源,表示到scrapyd的接口。Scrapyd包含一個帶有網站的界面,可以提供對應用程序的web資源的簡單監視和訪問。此設置必須提供twisted web資源的根類。 webroot = scrapyd.website.Root
- 保存重新運行后就可以遠程訪問了