本文始發於個人公眾號:TechFlow,原創不易,求個關注
今天是Python專題第20篇文章,我們來聊聊Python當中的多線程。
其實關於元類還有很多種用法,比如說如何在元類當中設置參數啦,以及一些規約的用法等等。只不過這些用法比較小眾,使用頻率非常低,所以我們不過多闡述了,可以在用到的時候再去詳細了解。我想只要大家理解了元類的原理以及使用方法,再去學習那些具體的用法應該會很容易。所以我們今天開始了一個新的話題——多線程和並發。
進程和線程
為了照顧小白,我們來簡單聊聊進程和線程這兩個概念。這兩個概念屬於操作系統,我們經常聽說,但是可能很少有人會細究它們的含義。對於工程師而言,兩者的定義和區別還是很有必要了解清楚的。
首先說進程,進程可以看成是CPU執行的具體的任務。在操作系統當中,由於CPU的運行速度非常快,要比計算機當中的其他設備要快得多。比如內存、磁盤等等,所以如果CPU一次只執行一個任務,那么會導致CPU大量時間在等待這些設備,這樣操作效率很低。為了提升計算機的運行效率,把機器的技能盡可能壓榨出來,CPU是輪詢工作的。也就是說它一次只執行一個任務,執行一小段碎片時間之后立即切換,去執行其他任務。
所以在早期的單核機器的時候,看起來電腦也是並發工作的。我們可以一邊聽歌一邊上網,也不會覺得卡頓。但實際上,這是CPU輪詢的結果。在這個例子當中,聽歌的軟件和上網的軟件對於CPU而言都是獨立的進程。我們可以把進程簡單地理解成運行的應用,比如在安卓手機里面,一個app啟動的時候就會對應系統中的一個進程。當然這種說法不完全准確,一個應用也是可以啟動多個進程的。
進程是對應CPU而言的,線程則更多針對的是程序。即使是CPU在執行當前進程的時候,程序運行的任務其實也是有分工的。舉個例子,比如聽歌軟件當中,我們需要顯示歌詞的字幕,需要播放聲音,需要監聽用戶的行為,比如是否發生了切歌、調節音量等等。所以,我們需要進一步拆分CPU的工作,讓它在執行當前進程的時候,繼續通過輪詢的方式來同時做多件事情。
進程中的任務就是線程,所以從這點上來說,進程和線程是包含關系。一個進程當中可以包含多個線程,對於CPU而言,不能直接執行線程,一個線程一定屬於一個進程。所以我們知道,CPU進程切換切換的是執行的應用程序或者是軟件,而進程內部的線程切換,切換的是軟件當中具體的執行任務。
關於進程和線程有一個經典的模型可以說明它們之間的關系,假設CPU是一家工廠,工廠當中有多個車間。不同的車間對應不同的生產任務,有的車間生產汽車輪胎,有的車間生產汽車骨架。但是工廠的電力是有限的,同時只能滿足一個廠房的使用。
為了讓大家的進度協調,所以工廠個需要輪流提供各個車間的供電。這里的車間對應的就是進程。

一個車間雖然只生產一種產品,但是其中的工序卻不止一個。一個車間可能會有好幾條流水線,具體的生產任務其實是流水線完成的,每一條流水線對應一個具體執行的任務。但是同樣的,車間同一時刻也只能執行一條流水線,所以我們需要車間在這些流水線之間切換供電,讓各個流水線生產進度統一。

這里車間里的流水線自然對應的就是線程的概念,這個模型很好地詮釋了CPU、進程和線程之間的關系。實際的原理也的確如此,不過CPU中的情況要比現實中的車間復雜得多。因為對於進程和CPU來說,它們面臨的局面都是實時變化的。車間當中的流水線是x個,下一刻可能就成了y個。
了解完了線程和進程的概念之后,對於理解電腦的配置也有幫助。比如我們買電腦,經常會碰到一個術語,就是這個電腦的CPU是某某核某某線程的。比如我當年買的第一台筆記本是4核8線程的,這其實是在說這台電腦的CPU有4個計算核心,但是使用了超線程技術,使得可以把一個物理核心模擬成兩個邏輯核心。相當於我們可以用4個核心同時執行8個線程,相當於8個核心同時執行,但其實有4個核心是模擬出來的虛擬核心。
有一個問題是為什么是4核8線程而不是4核8進程呢?因為CPU並不會直接執行進程,而是執行的是進程當中的某一個線程。就好像車間並不能直接生產零件,只有流水線才能生產零件。車間負責的更多是資源的調配,所以教科書里有一句非常經典的話來詮釋:進程是資源分配的最小單元,線程是CPU調度的最小單元。
啟動線程
Python當中為我們提供了完善的threading庫,通過它,我們可以非常方便地創建線程來執行多線程。
首先,我們引入threading中的Thread,這是一個線程的類,我們可以通過創建一個線程的實例來執行多線程。
from threading import Thread
t = Thread(target=func, name='therad', args=(x, y)) t.start()
簡單解釋一下它的用法,我們傳入了三個參數,分別是target,name和args,從名字上我們就可以猜測出它們的含義。首先是target,它傳入的是一個方法,也就是我們希望多線程執行的方法。name是我們為這個新創建的線程起的名字,這個參數可以省略,如果省略的話,系統會為它起一個系統名。當我們執行Python的時候啟動的線程名叫MainThread,通過線程的名字我們可以做區分。args是會傳遞給target這個函數的參數。
我們來舉個經典的例子:
import time, threading
# 新線程執行的代碼: def loop(n): print('thread %s is running...' % threading.current_thread().name) for i in range(n): print('thread %s >>> %s' % (threading.current_thread().name, i)) time.sleep(5) print('thread %s ended.' % threading.current_thread().name) print('thread %s is running...' % threading.current_thread().name) t = threading.Thread(target=loop, name='LoopThread', args=(10, )) t.start() print('thread %s ended.' % threading.current_thread().name)
我們創建了一個非常簡單的loop函數,用來執行一個循環來打印數字,我們每次打印一個數字之后這個線程會睡眠5秒鍾,所以我們看到的結果應該是每過5秒鍾屏幕上多出一行數字。
我們在Jupyter里執行一下:

表面上看這個結果沒毛病,但是其實有一個問題,什么問題呢?輸出的順序不太對,為什么我們在打印了第一個數字0之后,主線程就結束了呢?另外一個問題是,既然主線程已經結束了,為什么Python進程沒有結束, 還在向外打印結果呢?
因為線程之間是獨立的,對於主線程而言,它在執行了t.start()之后,並不會停留,而是會一直往下執行一直到結束。如果我們不希望主線程在這個時候結束,而是阻塞等待子線程運行結束之后再繼續運行,我們可以在代碼當中加上t.join()這一行來實現這點。
t.start()
t.join() print('thread %s ended.' % threading.current_thread().name)
join操作可以讓主線程在join處掛起等待,直到子線程執行結束之后,再繼續往下執行。我們加上了join之后的運行結果是這樣的:

這個就是我們預期的樣子了,等待子線程執行結束之后再繼續。
我們再來看第二個問題,為什么主線程結束的時候,子線程還在繼續運行,Python進程沒有退出呢?這是因為默認情況下我們創建的都是用戶級線程,對於進程而言,會等待所有用戶級線程執行結束之后才退出。這里就有了一個問題,那假如我們創建了一個線程嘗試從一個接口當中獲取數據,由於接口一直沒有返回,當前進程豈不是會永遠等待下去?
這顯然是不合理的,所以為了解決這個問題,我們可以把創建出來的線程設置成守護線程。
守護線程
守護線程即daemon線程,它的英文直譯其實是后台駐留程序,所以我們也可以理解成后台線程,這樣更方便理解。daemon線程和用戶線程級別不同,進程不會主動等待daemon線程的執行,當所有用戶級線程執行結束之后即會退出。進程退出時會kill掉所有守護線程。
我們傳入daemon=True參數來將創建出來的線程設置成后台線程:
t = threading.Thread(target=loop, name='LoopThread', args=(10, ), daemon=True)
這樣我們再執行看到的結果就是這樣了:

這里有一點需要注意,如果你在jupyter當中運行是看不到這樣的結果的。因為jupyter自身是一個進程,對於jupyter當中的cell而言,它一直是有用戶級線程存活的,所以進程不會退出。所以想要看到這樣的效果,只能通過命令行執行Python文件。
如果我們想要等待這個子線程結束,就必須通過join方法。另外,為了預防子線程鎖死一直無法退出的情況, 我們還可以在joih當中設置timeout,即最長等待時間,當等待時間到達之后,將不再等待。
比如我在join當中設置的timeout等於5時,屏幕上就只會輸出5個數字。

另外,如果沒有設置成后台線程的話,設置timeout雖然也有用,但是進程仍然會等待所有子線程結束。所以屏幕上的輸出結果會是這樣的:

雖然主線程繼續往下執行並且結束了,但是子線程仍然一直運行,直到子線程也運行結束。
關於join設置timeout這里有一個坑,如果我們只有一個線程要等待還好,如果有多個線程,我們用一個循環將它們設置等待的話。那么主線程一共會等待N * timeout的時間,這里的N是線程的數量。因為每個線程計算是否超時的開始時間是上一個線程超時結束的時間,它會等待所有線程都超時,才會一起終止它們。
比如我這樣創建3個線程:
ths = []
for i in range(3): t = threading.Thread(target=loop, name='LoopThread' + str(i), args=(10, ), daemon=True) ths.append(t) for t in ths: t.start() for t in ths: t.join(2)
最后屏幕上輸出的結果是這樣的:

所有線程都存活了6秒,不得不說,這個設計有點坑,和我們預想的完全不一樣。
總結
在今天的文章當中,我們一起簡單了解了操作系統當中線程和進程的概念,以及Python當中如何創建一個線程,以及關於創建線程之后的相關使用。今天介紹的只是最基礎的使用和概念,關於線程還有很多高端的用法,我們將在后續的文章當中和大家分享。
多線程在許多語言當中都是至關重要的,許多場景下必定會使用到多線程。比如web后端,比如爬蟲,再比如游戲開發以及其他所有需要涉及開發ui界面的領域。因為凡是涉及到ui,必然會需要一個線程單獨渲染頁面,另外的線程負責准備數據和執行邏輯。因此,多線程是專業程序員繞不開的一個話題,也是一定要掌握的內容之一。
今天的文章就到這里,如果喜歡本文,可以的話,請點個關注,給我一點鼓勵,也方便獲取更多文章。
本文使用 mdnice 排版