在網上大多關於join()與task_done()的結束原話是這樣的:
Queue.task_done() 在完成一項工作之后,Queue.task_done()函數向任務已經完成的隊列發送一個信號Queue.join() 實際上意味着等到隊列為空,再執行別的操作
但是可能很多人還是不太理解,這里以我自己的理解來闡述這兩者的關聯。
理解
如果線程里每從隊列里取一次,但沒有執行task_done(),則join無法判斷隊列到底有沒有結束,在最后執行個join()是等不到結果的,會一直掛起。
可以理解為,每task_done一次 就從隊列里刪掉一個元素,這樣在最后join的時候根據隊列長度是否為零來判斷隊列是否結束,從而執行主線程。
下面看個自己寫的例子:
下面這個例子,會在join()的地方無限掛起,因為join在等隊列清空,但是由於沒有task_done,它認為隊列還沒有清空,還在一直等。
-
#!/usr/bin/env python
-
# -*- coding:utf-8 -*-
-
'''threading test'''
-
import threading
-
import queue
-
from time import sleep
-
#之所以為什么要用線程,因為線程可以start后繼續執行后面的主線程,可以put數據,如果不是線程直接在get阻塞。
-
class Mythread(threading.Thread):
-
def __init__(self,que):
-
threading.Thread.__init__(self)
-
self.queue = que
-
def run(self):
-
while True:
-
sleep(1)
-
if self.queue.empty(): #判斷放到get前面,這樣可以,否則隊列最后一個取完后就空了,直接break,走不到print
-
break
-
item = self.queue.get()
-
print(item,'!')
-
#self.queue.task_done()
-
return
-
que = queue.Queue()
-
tasks = [Mythread(que) for x in range(1)]
-
for x in range(10):
-
-
que.put(x) #快速生產
-
for x in tasks:
-
t = Mythread(que) #把同一個隊列傳入2個線程
-
t.start()
-
-
que.join()
-
-
print('---success---')
-

如果把self.queue.task_done() 注釋去掉,就會順利執行完主程序。
這就是“Queue.task_done()函數向任務已經完成的隊列發送一個信號”這句話的意義,能夠讓join()函數能判斷出隊列還剩多少,是否清空了。
而事實上我們看下queue的源碼可以看出確實是執行一次未完成隊列減一:
-
def task_done(self):
-
'''Indicate that a formerly enqueued task is complete.
-
-
Used by Queue consumer threads. For each get() used to fetch a task,
-
a subsequent call to task_done() tells the queue that the processing
-
on the task is complete.
-
-
If a join() is currently blocking, it will resume when all items
-
have been processed (meaning that a task_done() call was received
-
for every item that had been put() into the queue).
-
-
Raises a ValueError if called more times than there were items
-
placed in the queue.
-
'''
-
with self.all_tasks_done:
-
unfinished = self.unfinished_tasks - 1
-
if unfinished <= 0:
-
if unfinished < 0:
-
raise ValueError('task_done() called too many times')
-
self.all_tasks_done.notify_all()
-
self.unfinished_tasks = unfinished
-
-
快速生產-快速消費
上面的演示代碼是快速生產-慢速消費的場景,我們可以直接用task_done()與join()配合,來讓empty()判斷出隊列是否已經結束。 當然,queue我們可以正確判斷是否已經清空,但是線程里的get隊列是不知道,如果沒有東西告訴它,隊列空了,因此get還會繼續阻塞,那么我們就需要在get程序中加一個判斷,如果empty()成立,break退出循環,否則get()還是會一直阻塞。
慢速生產-快速消費
但是如果生產者速度與消費者速度相當,或者生產速度小於消費速度,則靠task_done()來實現隊列減一則不靠譜,隊列會時常處於供不應求的狀態,常為empty,所以用empty來判斷則不靠譜。 那么這種情況會導致 join可以判斷出隊列結束了,但是線程里不能依靠empty()來判斷線程是否可以結束。 我們可以在消費隊列的每個線程最后塞入一個特定的“標記”,在消費的時候判斷,如果get到了這么一個“標記”,則可以判定隊列結束了,因為生產隊列都結束了,也不會再新增了。 代碼如下:
-
#!/usr/bin/env python
-
# -*- coding:utf-8 -*-
-
'''threading test'''
-
import threading
-
import queue
-
from time import sleep
-
#之所以為什么要用線程,因為線程可以start后繼續執行后面的主線程,可以put數據,如果不是線程直接在get阻塞。
-
class Mythread(threading.Thread):
-
def __init__(self,que):
-
threading.Thread.__init__(self)
-
self.queue = que
-
def run(self):
-
while True:
-
item = self.queue.get()
-
self.queue.task_done() #這里要放到判斷前,否則取最后最后一個的時候已經為空,直接break,task_done執行不了,join()判斷隊列一直沒結束
-
if item == None:
-
break
-
print(item,'!')
-
return
-
que = queue.Queue()
-
tasks = [Mythread(que) for x in range(1)]
-
#快速生產
-
for x in tasks:
-
t = Mythread(que) #把同一個隊列傳入2個線程
-
t.start()
-
for x in range(10):
-
sleep(1)
-
que.put(x)
-
for x in tasks:
-
que.put(None)
-
que.join()
-
print('---success---')
注意點:
put隊列完成的時候千萬不能用task_done(),否則會報錯:
task_done() called too many times
因為該方法僅僅表示get成功后,執行的一個標記。