在理解進程和線程概念之前首選要對並發有一定的感性認識,如果服務器同一時間內只能服務於一個客戶端,其他客戶端都再那里傻等的話,可見其性能的低下估計會被客戶罵出翔來,因此並發編程應運而生,並發是網絡編程中必須考慮的問題。實現並發的方式有多種:比如多進程、多線程、IO多路復用。
多進程
進程是資源(CPU、內存等)分配的基本單位,它是程序執行時的一個實例。程序運行時系統就會創建一個進程,並為它分配資源,然后把該進程放入進程就緒隊列,進程調度器選中它的時候就會為它分配CPU時間,程序開始真正運行。
Linux系統函數fork()
可以在父進程中創建一個子進程,這樣的話,在一個進程接到來自客戶端新的請求時就可以復制出一個子進程讓其來處理,父進程只需負責監控請求的到來,然后創建子進程讓其去處理,這樣就能做到並發處理。
# -*- coding:utf-8 -*- import os print('當前進程:%s 啟動中 ....' % os.getpid()) pid = os.fork() if pid == 0: print('子進程:%s,父進程是:%s' % (os.getpid(), os.getppid())) else: print('進程:%s 創建了子進程:%s' % (os.getpid(),pid ))
輸出結果:
當前進程:27223 啟動中 .... 進程:27223 創建了子進程:27224 子進程:27224,父進程是:27223
fork函數會返回兩次結果,因為操作系統會把當前進程的數據復制一遍,然后程序就分兩個進程繼續運行后面的代碼,fork分別在父進程和子進程中返回,在子進程返回的值pid永遠是0,在父進程返回的是子進程的進程id。
多線程
線程是程序執行時的最小單位,它是進程的一個執行流,是CPU調度和分派的基本單位,一個進程可以由很多個線程組成,線程間共享進程的所有資源,每個線程有自己的堆棧和局部變量。線程由CPU獨立調度執行,在多CPU環境下就允許多個線程同時運行。同樣多線程也可以實現並發操作,每個請求分配一個線程來處理。
線程和進程各自有什么區別和優劣呢?
-
進程是資源分配的最小單位,線程是程序執行的最小單位。
-
進程有自己的獨立地址空間,每啟動一個進程,系統就會為它分配地址空間,建立數據表來維護代碼段、堆棧段和數據段,這種操作非常昂貴。而線程是共享進程中的數據的,使用相同的地址空間,因此CPU切換一個線程的花費遠比進程要小很多,同時創建一個線程的開銷也比進程要小很多。
-
線程之間的通信更方便,同一進程下的線程共享全局變量、靜態變量等數據,而進程之間的通信需要以通信的方式(IPC)進行。不過如何處理好同步與互斥是編寫多線程程序的難點。
-
但是多進程程序更健壯,多線程程序只要有一個線程死掉,整個進程也死掉了,而一個進程死掉並不會對另外一個進程造成影響,因為進程有自己獨立的地址空間。
- 線程是棧分配的最小單元,其每個線程有兩個棧,一個是在調用內核函數時候的內核態的棧,和用戶態的棧,主要是安全方面考慮,防止用戶態的通過棧指針訪問到內核的數據。
- 操作系統為每個線程棧的分配的空間有大小限制,所以在使用棧的時候,要防止函數棧的溢出(不要申請大數組),損壞棧區的數據。