scrapy框架--新建調試的main.py文件


一.原因:

  由於pycharm中沒有scrapy的一個模板,所有沒辦法直接在scrapy文件中調試,所有我們需要寫一個自己的main.py文件,在文件里面調用命令行,來實現scrapy的一個調試。(在scrapy中可以調試,可以讓我們的開發效率高)

 

二.注意點:

  字爬蟲文件中設置斷點,但是需要在自己寫的main.py文件中用debug進行調試,然后返回到爬蟲文件觀看調試結果即可。

 

三.編寫main.py文件:

from scrapy.cmdline import execute   #調用此函數可以執行scrapy的腳本

import sys
import os

# 用來設置工程目錄,有了它才可以讓命令行生效
sys.path.append(os.path.dirname(os.path.abspath(__file__)))

#os.path.abspath(__file__)  用來獲取當前py文件的路徑
#os.path.dirname()    用來獲取文件的父親的路徑

#調用execute()函數執行scarpy的命令 scary crawl 爬蟲文件名字
execute(['scarpy','crawl','jobbole']) 

  我們可以看一下scarpy命令行  :scarpy crawl 爬蟲文件名字     (下圖截取了部分運行之后的代碼)

  

 

四.修改setting,py問價中的一個參數:因為scrapy默認會讀取每個網站的root協議,會把不符合root協議的url過濾掉,所有我們需要設置scrapy不需要遵守root協議。

  

 

 

  

  

 
        

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM