Python並發編程之線程中的信息隔離(五)


大家好,並發編程 進入第三篇。

上班第一天,大家應該比較忙吧。小明也是呢,所以今天的內容也很少。只要幾分鍾就能學完。

昨天我們說,線程與線程之間要通過消息通信來控制程序的執行。

G講完了消息通信,今天就來探討下線程里的信息隔離是如何做到的。

大家注意
信息隔離,這並不是官方命名的名詞,也不是網上廣為流傳的名詞。是我為了方便理解而自創的,大家知道就好咯。

本文目錄


  • 初步認識信息隔離
  • 信息隔離的意義何在

. 初步認識信息隔離

什么是信息隔離
比如說,咱有兩個線程,線程A里的變量,和線程B里的變量值不能共享。這就是信息隔離

你可能要說,那變量名取不一樣不就好啦?

是的,如果所有的線程都不是由一個class實例化出來的同一個對象,確實是可以。這個問題我們暫且掛着,后面我再說明。

那么,如何實現信息隔離呢?
在Python中,其提供了threading.local這個類,可以很方便的控制變量的隔離,即使是同一個變量,在不同的線程中,其值也是不能共享的。

用代碼來看下

from threading import local, Thread, currentThread

# 定義一個local實例
local_data = local()
# 在主線中,存入name這個變量
local_data.name = 'local_data'


class MyThread(Thread):
def run(self):
print("賦值前-子線程:", currentThread(),local_data.__dict__)
# 在子線程中存入name這個變量
local_data.name = self.getName()
print("賦值后-子線程:",currentThread(), local_data.__dict__)


if __name__ == '__main__':
print("開始前-主線程:",local_data.__dict__)

t1 = MyThread()
t1.start()
t1.join()

t2 = MyThread()
t2.start()
t2.join()

print("結束后-主線程:",local_data.__dict__)

來看看輸出結果

開始前-主線程: {'name': 'local_data'}

賦值前-子線程: <MyThread(Thread-1, started 4832)> {}
賦值后-子線程: <MyThread(Thread-1, started 4832)> {'name': 'Thread-1'}

賦值前-子線程: <MyThread(Thread-2, started 5616)> {}
賦值后-子線程: <MyThread(Thread-2, started 5616)> {'name': 'Thread-2'}

結束后-主線程: {'name': 'local_data'}

從輸出來看,我們可以知道,local實際是一個字典型的對象,其內部可以以key-value的形式存入你要做信息隔離的變量。local實例可以是全局唯一的,只有一個。因為你在給local存入或訪問變量時,它會根據當前的線程的不同從不同的存儲空間存入或獲取。

基於此,我們可以得出以下三點結論:

  1. 主線程中的變量,不會因為其是全局變量,而被子線程獲取到;
  2. 主線程也不能獲取到子線程中的變量;
  3. 子線程與子線程之間的變量也不能互相訪問。

所以如果想在當前線程保存一個全局值,並且各自線程(包括主線程)互不干擾,使用local類吧。

. 信息隔離的意義何在

細心的你,一定已經發現了,上面那個例子,即使我們不用threading.local來做信息隔離,兩個線程self.getName()本身就是隔離的,沒有任何關系的。因為這兩個線程是由一個class實例出的兩個不同的實例對象。自然是可以不用做隔離,因為其本身就是隔離的。

但是,現實開發中。不可排除有多個線程,是由一個class實例出的同一個實例對象而實現的。

譬如,現在新手特別喜歡的爬蟲項目。通常都是先給爬蟲一個主頁,然后獲取主頁下的所有鏈接,對這個鏈接再進行遍歷,一直往下,直到把所有的鏈接都爬完,獲取到我們所需的內容。

由於單線程的爬取效率實在是太低了,我們考慮使用多線程來工作。先使用socketwww.sina.con.cn建立一個TCP連接。然后在這個連接的基礎上,對主頁上的每個鏈接(我們這里只舉news.sina.com.cnblog.sina.com.cn這兩個子鏈接做例子)創建一個線程,這樣效率就高多了。

友情提醒
以下代碼,若要理解,可能需要你了解下socket的網絡編程相關內容。我在前幾天的文章中有發布一篇相關的文章,沒有基礎的同學可以先去看看那篇文章。

import threading
from functools import partial
from socket import socket, AF_INET, SOCK_STREAM

class LazyConnection:
def __init__(self, address, family=AF_INET, type=SOCK_STREAM):
self.address = address
self.family = AF_INET
self.type = SOCK_STREAM
self.local = threading.local()

def __enter__(self):
if hasattr(self.local, 'sock'):
raise RuntimeError('Already connected')
# 把socket連接存入local中
self.local.sock = socket(self.family, self.type)
self.local.sock.connect(self.address)
return self.local.sock

def __exit__(self, exc_ty, exc_val, tb):
self.local.sock.close()
del self.local.sock

def spider(conn, website):
with conn as s:
header = 'GET / HTTP/1.1\r\nHost: {}\r\nConnection: close\r\n\r\n'.format(website)
s.send(header.encode("utf-8"))
resp = b''.join(iter(partial(s.recv, 100000), b''))
print('Got {} bytes'.format(len(resp)))

if __name__ == '__main__':
# 建立一個TCP連接
conn = LazyConnection(('www.sina.com.cn', 80))

# 爬取兩個頁面
t1 = threading.Thread(target=spider, args=(conn,"news.sina.com.cn"))
t2 = threading.Thread(target=spider, args=(conn,"blog.sina.com.cn"))
t1.start()
t2.start()
t1.join()
t2.join()

輸出結果

Got 765 bytes
Got 513469 bytes

如果是在這種場景下,要做到線程之間的狀態信息的隔離,就肯定要借助threading.local,所以threading.local的存在是有存在的意義的。其他還有很多場景是必須借助threading.local才能實現的,而這些就要靠你們在真正的業務開發中去發現咯。

好了,今天就講這些內容。



 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM