網絡爬蟲之scrapy框架設置代理


前戲

os.environ()簡介

os.environ()可以獲取到當前進程的環境變量,注意,是當前進程。

如果我們在一個程序中設置了環境變量,另一個程序是無法獲取設置的那個變量的。

環境變量是以一個字典的形式存在的,可以用字典的方法來取值或者設置值。

os.environ() key字段詳解

windows:

os.environ['HOMEPATH']:當前用戶主目錄。
os.environ['TEMP']:臨時目錄路徑。
os.environ[PATHEXT']:可執行文件。
os.environ['SYSTEMROOT']:系統主目錄。
os.environ['LOGONSERVER']:機器名。
os.environ['PROMPT']:設置提示符。

linux:

os.environ['USER']:當前使用用戶。
os.environ['LC_COLLATE']:路徑擴展的結果排序時的字母順序。
os.environ['SHELL']:使用shell的類型。
os.environ['LAN']:使用的語言。
os.environ['SSH_AUTH_SOCK']:ssh的執行路徑。

內置的方式

原理

scrapy框架內部已經實現了設置代理的方法,它的原理是從環境變量中取出設置的代理,然后再使用,

所以我們只需要在程序執行前將代理以鍵值對的方式設置到環境變量中即可。

代碼

第一種方式:直接添加鍵值對的方式

class ChoutiSpider(scrapy.Spider):
	name = 'chouti'
	allowed_domains = ['chouti.com']
	start_urls = ['https://dig.chouti.com/']
	cookie_dict = {}

	def start_requests(self):
		import os
		os.environ['HTTPS_PROXY'] = "http://username:password@192.168.11.11:9999/"
		os.environ['HTTP_PROXY'] = '19.11.2.32',
		for url in self.start_urls:
			yield Request(url=url,callback=self.parse)

第二種方式:設置meta參數的方式

class ChoutiSpider(scrapy.Spider):
	name = 'chouti'
	allowed_domains = ['chouti.com']
	start_urls = ['https://dig.chouti.com/']
	cookie_dict = {}

	def start_requests(self):
		for url in self.start_urls:
			yield Request(url=url,callback=self.parse,meta={'proxy':'"http://username:password@192.168.11.11:9999/"'})

自定義方式

原理

我們可以根據內部實現的添加代理的類(中間件)的實現方法,來對它進行升級,比如內部的方式一次只能使用一個代理,

我們可以弄一個列表,裝很多代理地址,然后隨機選取一個代理,這樣可以防止請求過多被封ip

代碼

class ChoutiSpider(scrapy.Spider):
	name = 'chouti'
	allowed_domains = ['chouti.com']
	start_urls = ['https://dig.chouti.com/']
	cookie_dict = {}

	def start_requests(self):
		for url in self.start_urls:
			yield Request(url=url,callback=self.parse,meta={'proxy':'"http://username:password@192.168.11.11:9999/"'})

			import base64
			import random
			from six.moves.urllib.parse import unquote
			try:
				from urllib2 import _parse_proxy
			except ImportError:
				from urllib.request import _parse_proxy
			from six.moves.urllib.parse import urlunparse
			from scrapy.utils.python import to_bytes

			class XXProxyMiddleware(object):

				def _basic_auth_header(self, username, password):
					user_pass = to_bytes(
						'%s:%s' % (unquote(username), unquote(password)),
						encoding='latin-1')
					return base64.b64encode(user_pass).strip()

				def process_request(self, request, spider):
					PROXIES = [
						"http://username:password@192.168.11.11:9999/",
						"http://username:password@192.168.11.12:9999/",
						"http://username:password@192.168.11.13:9999/",
						"http://username:password@192.168.11.14:9999/",
						"http://username:password@192.168.11.15:9999/",
						"http://username:password@192.168.11.16:9999/",
					]
					url = random.choice(PROXIES)

					orig_type = ""
					proxy_type, user, password, hostport = _parse_proxy(url)
					proxy_url = urlunparse((proxy_type or orig_type, hostport, '', '', '', ''))

					if user:
						creds = self._basic_auth_header(user, password)
					else:
						creds = None
					request.meta['proxy'] = proxy_url
					if creds:
						request.headers['Proxy-Authorization'] = b'Basic ' + creds

寫完類之后需要在settings文件里配置一下:

DOWNLOADER_MIDDLEWARES = {
   'spider.xxx.XXXProxyMiddleware': 543,
}

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM