目標在Win7上建立一個Scrapy爬蟲項目,以及對其進行基本操作。運行環境:電腦上已經安裝了python(環境變量path已經設置好),
以及scrapy模塊,IDE為Pycharm 。操作如下:
一、建立Scrapy模板。進入自己的工作目錄,shift + 鼠標右鍵進入命令行模式,在命令行模式下,
輸入scrapy startproject 項目名 ,如下:
看到以上的代碼說明項目已經在工作目錄中建好了。
二、在Pycharm中scrapy的導入。在Pycharm中打開工作目錄中的TestDemo,點擊File-> Settings->Project: TestDemo->Project Interpreter。
法一: 如圖,
選擇紅框中右邊的下拉菜單點擊Show All, 如圖:
點擊右上角加號,如圖:
在紅色框體內找到電腦里已經安裝的python,比如我的是:
C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\python.exe , 導入即可。
之后,pycharm會自動導入你已經在電腦上安裝的scrapy等模塊。如圖,即紅色框體中顯示的。
法二:一個不那么麻煩的方法。如圖:
點擊紅色框體,在彈出的框體內另安裝一個scrapy, 如圖:
需要安裝的模塊,如圖:
模塊自下而上進行安裝,其中可能出現twisted包不能成功安裝,出現
Failed building wheel for Twisted
Microsoft Visual C++ 14.0 is required...
的現象,那就搜一解決方案,這里不多說了。
三、Pycharm中scrapy的運行設置。
法一:Scrapy爬蟲的運行需要到命令行下運行,在pychram中左下角有個Terminal,點開就可以在Pycharm下進入命令行,默認
是在項目目錄下的,要運行項目,需要進入下一層目錄,使用cd TestDemo 進入下一層目錄,然后用scrapy crawl 爬蟲名 , 即可運行爬蟲。
如圖:
法二:在TestDemoSpider目錄和scrapy.cfg同級目錄下面,新建一個entrypoint.py文件,如圖:
其中只需把紅色框體內的內容改成相應的爬蟲的名字就可以在不同的爬蟲項目中使用了,直接運行該文件就能使得Scrapy爬蟲運行
Tips:在創建爬蟲時使用模板更加方便一些,如:
scrapy genspider [-t template] <name> <domain> 即:scrapy genspider testDemoSpider baidu.com