親測——pycharm下運行第一個scrapy項目 ©seven_clear

本文轉載自查看原文 2016-06-25 13:34 8437 pycharm/ scrapy/ Python

最近在學習scrapy，就想着用pycharm調試，但不知道怎么弄，從網上搜了很多方法，這里總結一個我試成功了的。

首先當然是安裝scrapy，安裝教程什么的網上一大堆，這里推薦一個詳細的：http://blog.csdn.net/php_fly/article/details/19364913，里面有安的東西的資源。有幾點需要注意一下：1）Python配置環境變量最好把Scripts路徑也加上，如我的是D:\Python27\Scripts。因為裝scrapy要用到；2）裝zope.interface-4.0.5-py2.7-win32.egg時打開方式選Scripts路徑下的easy_install.exe。其他的應該沒問題了。

大致流程是：先用命令行新建一個scrapy項目->用pycharm打開該項目->編寫自己的爬蟲代碼->運行。

找到你想建項目的目錄，然后在該目錄下啟動cmd，輸入scrapy startproject name（自定義的項目名），沒意外的話你會在你的目錄下看到name文件夾，這就是你的scrapy項目，打開該文件夾，會有一個同名文件夾和scrapy.cfg文件。©seven_clear

然后用pycharm打開該項目，創建自己的爬蟲，具體可參考：http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html，不過我安的是0.20.2版本，在定義自己的爬蟲類時代碼有些許不同：

# coding:utf-8
from scrapy.spider import BaseSpider

class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
        filename = response.url.split("/")[-2]
        open(filename, 'wb').write(response.body)

import的是BaseSpider，其他的都是文檔上的代碼。編輯items.py時把自己的item類寫在原類下面：

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

from scrapy.item import Item, Field

class TestscrapyItem(Item):
    # define the fields for your item here like:
    # name = Field()
    pass


class DmozItem(Item):
    title = Field()
    link = Field()
    desc = Field()

好了，現在就差運行了，只需要寫一個命令行即可，為了方便，寫進一個Python文件中，名字自定義（可以命名為main），和scrapy.cfg在同級目錄下，內容就兩行：

# coding:utf-8

from scrapy import cmdline


cmdline.execute("scrapy crawl dmoz".split())

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 手把手教你如何新建scrapy爬蟲框架的第一個項目（下）【Python3爬蟲】第一個Scrapy項目在pycharm中創建py文件——創建你的第一個項目 Android1_運行第一個AS項目HelloWorld scrapy框架搭建與第一個實例 windows下的java項目打jar分別編寫在windows與linux下運行的腳本( 本人親測可用！) 如何開始第一個開源項目？第一個月多測師講解__項目講解以及注意事項（肖sir） tornado之運行第一個tornado程序運行第一個Go Web框架