python中的多線程其實並不是真正的多線程,如果想要充分地使用多核CPU的資源,在python中大部分情況需要使用多進程。Python提供了非常好用的多進程包multiprocessing,只需要定義一個函數,Python會完成其他所有事情。借助這個包,可以輕松完成從單進程到並發執行的轉換
本來想寫多線程的,但是演示效果並不是很好,就改成進程了。

其實多進程沒有我們想象的那么難,用幾個小例子給大家分享一下!
目錄
-
多進程的多種實現方法及效果演示:這段將通過幾個小腳本實現多進程的效果
-
一個小爬蟲實例,通過運行時間來查看進程對代碼速度的影響
多進程
首先我們先做一個小腳本,就用turtle畫4個同心圓吧!這樣在演示多進程的時候比較直觀。代碼如下:
1 import turtle 2 3 def cir(n,m): 4 turtle.penup() 5 turtle.goto(n) 6 turtle.pendown() 7 turtle.circle(m) 8 time.sleep(1) 9 def runn(lis1,lis2): 10 for n, m in zip(lis1,lis2): 11 cir(n,m) 12 if __name__ == '__main__': 13 nn = [(0,-200),(0,-150),(0,-100),(0,-50)] 14 mm = [200,150,100,50] 15 runn(nn,mm)
這段代碼,實現了畫4個同心圓的效果,如果用多進程的話,我們稍微該寫一下,將runn()函數替換下面的代碼
from multiprocessing import Process,Pool
for i in range(4):
Process(target=runn,args=(nn,mm)).start()
這里,啟動4個進程,同時畫圓,給個圖大家感受一下!

可以看到,這里直接生成4個畫板同時畫同心圓。如果還要在加進程的話,可以用pool進程池,注意pool有2個方法,建議用非阻塞的p.apply_async不要用阻塞的p.apply方法,p.apply_async會由系統自行判斷並運行,比如指定4個進程運行5個任務,那么會在某一個進程運行完畢的同時自動開始第5個任務,而阻塞的p.apply方法會一次只運行一個進程。
然后就是記得close()進程池,並用p.join()等待所有進程完成!相關代碼如下
1 p = Pool(9) 2 for i in range(9): 3 p.apply_async(runn,(nn,mm))#非阻塞 4 #p.apply(runn,(nn,mm))#阻塞 5 p.close() 6 p.join()
Pool()里面不帶參數會自動適應電腦本身內核數量,這里我設置9個進程同時進行!來看看效果

可以看到,同時進行了9個畫圖的進程,但是同樣的,有明顯的卡頓感!當然,我們也可以用map函數來寫多進程,先修改下代碼
def cir(m): turtle.penup() turtle.goto(m[0]) turtle.pendown() turtle.circle(m[1]) time.sleep(14) if __name__ == '__main__': nn = [(0, -200), (0, -150), (0, -100), (0, -50)] mm = [200, 150, 100, 50] mn = [(x,y) for x,y in zip(nn,mm)] p = Pool(3) p.map(cir,mn)
這次不畫4個同心圓了,我們讓它4個進程各畫一個圓,來看看效果

為了演示效果,多加了點間隔時間,並把cir函數的參數改為1個,這樣便於生成元組列表!可以看到,有了明顯的卡頓,電腦不好,大家看看效果就行了
寫個簡單的多進程爬蟲
做一個小爬蟲,加入運行時間,先上一個不使用進程的代碼:
import requests from lxml import etree import time from multiprocessing import Process,Pool def main(url): time.sleep(1) html = requests.get(url) html.encoding = 'gb2312' data = etree.HTML(html.text) title = data.xpath('//a[@class="ulink"]/text()') summary = data.xpath('//td[@colspan="2"]/text()') urls = data.xpath('//a[@class="ulink"]/@href') for t,s,u in zip(title,summary,urls): print(t) print('【url:】http://www.dytt8.net'+u) print('【簡介】>>>>>>>'+s) if __name__ == '__main__': start = time.time() url = 'http://www.dytt8.net/html/gndy/dyzz/' pg_url = [url+'list_23_{}.html'.format(str(x)) for x in range(1,10)] for pg_u in pg_url: main(pg_u) end = time.time() print("共計用時%.4f秒"%(end-start))
在修改下多進程,直接修改最后幾行行代碼即可
pg_url = [url+'list_23_{}.html'.format(str(x)) for x in range(1,10)] # for pg_u in pg_url: # main(pg_u) p=Pool() p.map(main,pg_url) end = time.time() print("共計用時%.4f秒"%(end-start))
可以看到,速度提高了1倍多,當然,並不是說只能提高一倍,而是我的代碼太簡單了,只是從網站抓取字符串打印出來,響應速度很快,導致提升的倍率並沒有我們想象的那么高,如果大家有興趣,可以嘗試一下,基本上可以提升到進程數的倍率,也就是說,不超過電腦核心數量,且沒有其他外因(比如網絡響應速度等等)的情況下,用4進程可以提升接近4倍的速度!

后記
在學習的過程中,難免會遇到很高深並且很難理解的知識點,我們可以先嘗試去簡化理解它,比如多進程,它本身還有進程池、進程間通訊、守護進程、進程類(重寫run方法)、進程鎖、進程隊列、管道、信號量等等功能或知識點,這里都沒有涉及,不過這並不影響我們使用簡單的多進程寫代碼!