scrapy的allowed_domains设置含义

本文转载自查看原文 2017-12-11 11:00 12165 python爬虫系列/ scrapy爬虫allowed_domains含义

设置allowed_domains的含义是过滤爬取的域名，在插件OffsiteMiddleware启用的情况下（默认是启用的），不在此允许范围内的域名就会被过滤，而不会进行爬取

但是有一个问题：像下面这种情况，对于start_urls里的起始爬取页面，它是不会过滤的，它的作用是过滤首页之后的页面-----待验证

#/usr/bin/env python
#coding:utf-8
import scrapy
# import sys
# import os
from scrapy_study.items import DemoItem

class DemoScrapy(scrapy.Spider):
    name = 'demoscrapy'
    
    # start_urls = ['http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html']
    allowed_domains = ["scrapypython.2org"]
    # start_urls = ['https://docs.python.org/2/library/os.path.html']
    start_urls = ['http://yogoup.sinaapp.com/']
    def parse(self,response):
        print response.body

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 max_allowed_packet设置问题 MySQL max_allowed_packet设置及问题 MySQL max_allowed_packet设置及问题网络爬虫之scrapy框架设置代理 scrapy允许状态码及设置重试 mysql 8 设置允许远程连接 You are not allowed to create a user with GRANT Learning Meta Face Recognition in Unseen Domains INFO: Ignoring response <503 http://www.xicidaili.com/nn>: HTTP status code is not handled or not allowed 用scrapy爬虫 scrapy框架设置代理ip，headers头和cookies Scrapy学习篇（十一）之设置随机User-Agent