python爬蟲之線程池和進程池

本文轉載自查看原文 2018-01-31 17:05 7839 python爬蟲/ 性能

一、需求

　　最近准備爬取某電商網站的數據，先不考慮代理、分布式，先說效率問題（當然你要是請求的太快就會被封掉，親測，400個請求過去，服務器直接拒絕連接，心碎），步入正題。一般情況下小白的我們第一個想到的是for循環，這個可是單線程啊。那我們考慮for循環直接開他個5個線程，問題來了，如果有一個url請求還沒有回來，后面的就干等，這么用多線程等於沒用，到處貼創可貼。

二、性能考慮

　　確定要用多線程或者多進程了，那我們到底是用多線程還是多進程，有些人對多進程和多線程有一定的偏見，就因為python的GIL鎖，下面我們說一下這兩個東西的差別。

三、多線程：

　　一般情況下我們啟動一個.py文件，就等於啟動了一個進程，一個進程里面默認有一個線程工作，我們使用的多線程的意思就是在一個進程里面啟用多個線程。但問題來了，為什么要使用多線程呢？我知道啟動一個進程的時候需要創建一些內存空間，就相當於一間房子，我們要在這個房子里面干活，你可以想一個人就等於一個線程，你房子里面有10個人的空間跟有20個人的空間，正常情況下是不一樣的，因為我們知道線程和線程之間默認是可以通信的（進程之間默認是不可以通信的，不過可以用技術實現，比如說管道）。可以多線程為了保證計算數據的正確性，所以出現了GIL鎖，保證同一時間只能有一個線程在計算。GIL鎖你可以基本理解為，比如在這個房間里要算一筆賬，在同一時間內只能有一個人在算這筆賬，想一個問題，如果這筆賬5個人就能算清楚，我需要10平米的房間就行，那為什么要請10個人，花20平米呢？所以並不是開的線程越多越好。但是，但是，但是，注意大家不用動腦筋（CPU計算）算這筆賬的時候可以去干別的事（比如說5個人分工，各算一部分），比如說各自把自己算完后的結果記錄在賬本上以便后面對賬，這個的話每個人都有自己的賬本，所以多線程適合IO操作，記住了就算是適合IO操作，也不代表說人越多越好，所以這個量還是得根據實際情況而定。

　　示例：

 1 import requests
 2 from concurrent.futures import ThreadPoolExecutor
 3 
 4 urls_list = [
 5     'https://www.baidu.com',
 6     'http://www.gaosiedu.com',
 7     'https://www.jd.com',
 8     'https://www.taobao.com',
 9     'https://news.baidu.com',
10 ]
11 pool = ThreadPoolExecutor(3)
12 
13 def request(url):
14     response = requests.get(url)
15     return response
16 
17 def read_data(future,*args,**kwargs):
18     response = future.result()
19     response.encoding = 'utf-8'
20     print(response.status_code,response.url)
21 
22 def main():
23     for url in urls_list:
24         done = pool.submit(request,url)
25         done.add_done_callback(read_data)
26 
27 if __name__ == '__main__':
28     main()
29     pool.shutdown(wait=True)

線程池

四、多進程：

　　上面我們介紹了多線程（線程池），現在我們聊聊進程池，我們知道一個進程占用一個CPU，現在的配置CPU一般都是4核，我們啟動兩個進程就是分別在兩個CPU里面（兩個內核）各運行一個進程，我知道進程里面才有線程，默認是一個。但是有個缺點，按照上面的說法，開兩個進程占用的內存空間是開一個進程占用內存空間的2倍。CPU就占用了2個核，電腦還得干別的事兒對吧，不能冒冒失失瞎用。開的太多是不是其他程序就得等着，我們思考一下，占用這么多的內存空間，利用了多個CPU的優點為了什么？CPU是用來做什么的？沒錯就是用來計算的，所以在CPU密集運算的情況下建議用多進程。注意，具體要開幾個進程，根據機器的實際配置和實際生產情況而定。

 1 import requests
 2 from concurrent.futures import ProcessPoolExecutor
 3 
 4 urls_list = [
 5     'https://www.baidu.com',
 6     'http://www.gaosiedu.com',
 7     'https://www.jd.com',
 8     'https://www.taobao.com',
 9     'https://news.baidu.com',
10 ]
11 pool = ProcessPoolExecutor(3)
12 
13 def request(url):
14     response = requests.get(url)
15     return response
16 
17 def read_data(future,*args,**kwargs):
18     response = future.result()
19     response.encoding = 'utf-8'
20     print(response.status_code,response.url)
21 
22 def main():
23     for url in urls_list:
24         done = pool.submit(request,url)
25         done.add_done_callback(read_data)
26 
27 if __name__ == '__main__':
28     main()
29     pool.shutdown(wait=True)

進程池

總結：

　　1、多線程適合IO密集型程序

　　 2、多進程適合CPU密集運算型程序

五、協程：

　　協程：又稱微線程纖程。英文名Coroutine。那協程到底是個什么東西，通俗的講就是比線程還要小的線程，所以才叫微線程。

　　主要作用：有人要問了，在python中線程是原子操作（意思就是說一句話或者一個動作就能搞定的操作或者計算），怎么還有個叫協程的呢？

　　優點：

　　　　1、使用高並發、高擴展、低性能的；一個CPU支持上萬的協程都不是問題。所以很適合用於高並發處理。

　　　　2、無需線程的上下文切換開銷（乍一看，什么意思呢？我們都知道python實際上是就是單線程，那都是怎么實現高並發操作呢，就是CPU高速的切換，每個任務都干一點，最后看上去是一起完事兒的，肉眼感覺就是多線程、多進程）

　　缺點：

　　　　1、無法利用CPU的多核優點，這個好理解，進程里面包含線程，而協程就是細分后的線程，也就是說一個進程里面首先是線程其后才是協程，那肯定是用不了多核了，不過可以多進程配合，使用CPU的密集運算，平時我們用不到。

　　1、一般情況下用的比較多的是asyncio或者是gevent這兩個技術實現協程，asyncio是python自帶的技術，gevent第三方庫，個人比較喜歡gevent這個技術。

　　gevent：

　　　　安裝：gevent需要安裝greenlet，因為它是使用到了greenlet這個庫。

pip3 install greenlet
pip3 install gevent

　　　　1、gevent的基本實現，按照下面的寫法，程序啟動后將會開啟許許多多的協程，反而特別影響性能。

 1 import requests
 2 import gevent
 3 from gevent import monkey
 4 
 5 #把當前的IO操作，打上標記，以便於gevent能檢測出來實現異步(否則還是串行）
 6 monkey.patch_all()
 7 
 8 
 9 def task(url):
10     '''
11     1、request發起請求
12     :param url: 
13     :return: 
14     '''
15     response = requests.get(url)
16     print(response.status_code)
17 
18 gevent.joinall([
19     gevent.spawn(task,url='https://www.baidu.com'),
20     gevent.spawn(task,url='http://www.sina.com.cn'),
21     gevent.spawn(task,url='https://news.baidu.com'),
22 ])

gevent+requests

　　　　2、有一個改進版本，就是可以設置到底讓它一次發起多少個請求（被忘了，協程=高並發現實之一）。其實里面就是利用gevnet下的pool模塊里面的Pool控制每次請求的數量。　　

 1 import requests
 2 import gevent
 3 from gevent import monkey
 4 from gevent.pool import Pool
 5 
 6 #把當前的IO操作，打上標記，以便於gevent能檢測出來實現異步(否則還是串行）
 7 monkey.patch_all()
 8 
 9 
10 def task(url):
11     '''
12     1、request發起請求
13     :param url:
14     :return:
15     '''
16     response = requests.get(url)
17     print(response.status_code)
18     
19     
20 #控制最多一次向遠程提交多少個請求，None代表不限制
21 pool = Pool(5)
22 gevent.joinall([
23     pool.spawn(task,url='https://www.baidu.com'),
24     pool.spawn(task,url='http://www.sina.com.cn'),
25     pool.spawn(task,url='https://news.baidu.com'),
26 ])

gevent+reqeust+Pool（控制每次請求數量）

　　　　3、還有一版本，每次我們都要裝greenlet和gevent這肯定是沒法子，但是，我們上面寫的這個改進版還是有點麻煩，所以就有人寫了100多行代碼把它們給搞到了一起，對就是搞到了一起，叫grequests，就是前者兩個技術的結合。

pip3 install grequests

　　　　這個版本是不是特別變態，直接把requests、greenlet、gevent、Pool都省的導入了，但是裝還是要裝的，有人說從下面代碼中我沒看到Pool的參數啊，grequests.map(request_list,size=5)，size就是你要同時開幾個協程，還有參數你得點進去看，是不是很牛，很輕松

 1 import grequests
 2 
 3 request_list = [
 4     grequests.get('https://www.baidu.com'),
 5     grequests.get('http://www.sina.com.cn'),
 6     grequests.get('https://news.baidu.com'),
 7 ]
 8 # ##### 執行並獲取響應列表 #####
 9 response_list = grequests.map(request_list,size=5)
10 print(response_list)

grequests

　　　　結果返回一個列表，你可以再迭代一下就行了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python線程池ThreadPoolExecutor與進程池ProcessPoolExecutor python ThreadPoolExecutor線程池和ProcessPoolExecutor進程池 python 進程池、線程池與異步調用、回調機制開啟線程池和進程池 python 之並發編程（進程池與線程池、同步異步阻塞非阻塞、線程queue） python爬蟲之多線程、多進程+代碼示例進程與線程的區別？--多線程與線程池 python進程池和進程鎖 python 內置的線程池、進程池及其並發服務器的實現 python進程池multiprocessing.Pool和線程池multiprocessing.dummy.Pool實例