Python学习之实现简单的高并发爬虫爬取网页

本文转载自查看原文 2020-03-04 21:02 680

import gevent,time
from  urllib import request
#urllib的io操作gevent不会识别，不会自动切换，以下方法解决
from gevent import monkey
monkey.patch_all() #把当前程序的所有Io操作给我单独的做上标记

def f(url):
    print('GET: %s' % url)
    resp = request.urlopen(url)
    data = resp.read()
    # f = open("url.html","wb")
    # f.write(data)
    # f.close()
    print('%d bytes received from %s.' % (len(data), url))

#串行
urls = [
    'https://www.python.org/',
    'https://www.nginx.org/',
    'https://github.com/',
]
time_start = time.time()
for url in urls:
    f(url)
print("同步cost",time.time()-time_start)

#协程并行
async_time_start = time.time()
gevent.joinall([
    gevent.spawn(f, 'https://www.python.org/'),
    gevent.spawn(f, 'https://www.yahoo.com/'),
    gevent.spawn(f, 'https://github.com/'),
])
print("异步cost",time.time()-async_time_start)

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Python学习之实现高并发socket server python爬虫学习（四）：爬取网页图片-正则解析数据 python爬取简单网页 java爬虫-简单爬取网页图片爬虫基本流程及简单爬取网页爬虫学习（八）——带cookie的网页进行爬取一个简单python爬虫的实现——爬取电影信息 python 爬虫（爬取网页的img并下载） Python爬虫爬取动态网页 Python爬虫——爬取网页图片