Python學習，多進程了解一下！學爬蟲不會用多進程能行嗎？

本文轉載自查看原文 2018-08-01 13:46 1393 python/ python基礎/ python學習/ python爬蟲

python中的多線程其實並不是真正的多線程，如果想要充分地使用多核CPU的資源，在python中大部分情況需要使用多進程。Python提供了非常好用的多進程包multiprocessing，只需要定義一個函數，Python會完成其他所有事情。借助這個包，可以輕松完成從單進程到並發執行的轉換

本來想寫多線程的，但是演示效果並不是很好，就改成進程了。

其實多進程沒有我們想象的那么難，用幾個小例子給大家分享一下！

多進程的多種實現方法及效果演示：這段將通過幾個小腳本實現多進程的效果
一個小爬蟲實例，通過運行時間來查看進程對代碼速度的影響

多進程

首先我們先做一個小腳本，就用turtle畫4個同心圓吧！這樣在演示多進程的時候比較直觀。代碼如下：

 1 import turtle
 2 
 3 def cir(n,m):
 4     turtle.penup()
 5     turtle.goto(n)
 6     turtle.pendown()
 7     turtle.circle(m)
 8     time.sleep(1)
 9 def runn(lis1,lis2):
10     for n, m in zip(lis1,lis2):
11         cir(n,m)
12 if __name__ == '__main__':
13     nn = [(0,-200),(0,-150),(0,-100),(0,-50)]
14     mm = [200,150,100,50]
15     runn(nn,mm)

這段代碼，實現了畫4個同心圓的效果，如果用多進程的話，我們稍微該寫一下,將runn()函數替換下面的代碼

from multiprocessing import Process,Pool

for i in range(4):

Process(target=runn,args=(nn,mm)).start()

這里，啟動4個進程，同時畫圓，給個圖大家感受一下！

可以看到，這里直接生成4個畫板同時畫同心圓。如果還要在加進程的話，可以用pool進程池，注意pool有2個方法，建議用非阻塞的p.apply_async不要用阻塞的p.apply方法，p.apply_async會由系統自行判斷並運行，比如指定4個進程運行5個任務，那么會在某一個進程運行完畢的同時自動開始第5個任務，而阻塞的p.apply方法會一次只運行一個進程。

然后就是記得close()進程池，並用p.join()等待所有進程完成！相關代碼如下

1 p = Pool(9)
2     for i in range(9):
3         p.apply_async(runn,(nn,mm))#非阻塞
4         #p.apply(runn,(nn,mm))#阻塞
5     p.close()
6     p.join()

Pool()里面不帶參數會自動適應電腦本身內核數量，這里我設置9個進程同時進行！來看看效果

可以看到，同時進行了9個畫圖的進程，但是同樣的，有明顯的卡頓感！當然，我們也可以用map函數來寫多進程，先修改下代碼

def cir(m):
    turtle.penup()
    turtle.goto(m[0])
    turtle.pendown()
    turtle.circle(m[1])
    time.sleep(14)
if __name__ == '__main__':
    nn = [(0, -200), (0, -150), (0, -100), (0, -50)]
    mm = [200, 150, 100, 50]
    mn = [(x,y) for x,y in zip(nn,mm)]
    p = Pool(3)
    p.map(cir,mn)

這次不畫4個同心圓了，我們讓它4個進程各畫一個圓，來看看效果

為了演示效果，多加了點間隔時間，並把cir函數的參數改為1個，這樣便於生成元組列表！可以看到，有了明顯的卡頓，電腦不好，大家看看效果就行了

寫個簡單的多進程爬蟲

做一個小爬蟲，加入運行時間，先上一個不使用進程的代碼：

import requests
from lxml import etree
import time
from multiprocessing import Process,Pool

def main(url):
    time.sleep(1)
    html = requests.get(url)
    html.encoding = 'gb2312'
    data = etree.HTML(html.text)
    title = data.xpath('//a[@class="ulink"]/text()')
    summary = data.xpath('//td[@colspan="2"]/text()')
    urls = data.xpath('//a[@class="ulink"]/@href')
    for t,s,u in zip(title,summary,urls):
        print(t)
        print('【url:】http://www.dytt8.net'+u)
        print('【簡介】>>>>>>>'+s)

if __name__ == '__main__':
    start = time.time()
    url = 'http://www.dytt8.net/html/gndy/dyzz/'
    pg_url = [url+'list_23_{}.html'.format(str(x)) for x in range(1,10)]
    for pg_u in pg_url:
        main(pg_u)
    end = time.time()
    print("共計用時%.4f秒"%(end-start))

在修改下多進程，直接修改最后幾行行代碼即可

    pg_url = [url+'list_23_{}.html'.format(str(x)) for x in range(1,10)]
    # for pg_u in pg_url:
    #     main(pg_u)
    p=Pool()
    p.map(main,pg_url)
    end = time.time()
    print("共計用時%.4f秒"%(end-start))

可以看到，速度提高了1倍多，當然，並不是說只能提高一倍，而是我的代碼太簡單了，只是從網站抓取字符串打印出來，響應速度很快，導致提升的倍率並沒有我們想象的那么高，如果大家有興趣，可以嘗試一下，基本上可以提升到進程數的倍率，也就是說，不超過電腦核心數量，且沒有其他外因（比如網絡響應速度等等）的情況下，用4進程可以提升接近4倍的速度！

后記

在學習的過程中，難免會遇到很高深並且很難理解的知識點，我們可以先嘗試去簡化理解它，比如多進程，它本身還有進程池、進程間通訊、守護進程、進程類（重寫run方法）、進程鎖、進程隊列、管道、信號量等等功能或知識點，這里都沒有涉及，不過這並不影響我們使用簡單的多進程寫代碼！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python 之多進程 Python多進程 python 多進程 Python 多進程爬蟲實例 Python爬蟲，多進程 + 日志記錄 python進程、多進程 python 多進程下的日志打印 Python多進程編程 python多進程假死 Python多進程編程