深入理解Java內存模型(一)——基礎
並發編程模型的分類
在並發編程中,我們需要處理兩個關鍵問題:線程之間如何通信及線程之間如何同步(這里的線程是指並發執行的活動實體)。通信是指線程之間以何種機制來交換信息。在命令式編程中,線程之間的通信機制有兩種:共享內存和消息傳遞。
在共享內存的並發模型里,線程之間共享程序的公共狀態,線程之間通過寫-讀內存中的公共狀態來隱式進行通信。在消息傳遞的並發模型里,線程之間沒有公共狀態,線程之間必須通過明確的發送消息來顯式進行通信。
同步是指程序用於控制不同線程之間操作發生相對順序的機制。在共享內存並發模型里,同步是顯式進行的。程序員必須顯式指定某個方法或某段代碼需要在線程之間互斥執行。在消息傳遞的並發模型里,由於消息的發送必須在消息的接收之前,因此同步是隱式進行的。
Java的並發采用的是共享內存模型,Java線程之間的通信總是隱式進行,整個通信過程對程序員完全透明。如果編寫多線程程序的Java程序員不理解隱式進行的線程之間通信的工作機制,很可能會遇到各種奇怪的內存可見性問題。
Java內存模型的抽象
在java中,所有實例域、靜態域和數組元素存儲在堆內存中,堆內存在線程之間共享(本文使用“共享變量”這個術語代指實例域,靜態域和數組元素)。局部變量(Local variables),方法定義參數(java語言規范稱之為formal method parameters)和異常處理器參數(exception handler parameters)不會在線程之間共享,它們不會有內存可見性問題,也不受內存模型的影響。
Java線程之間的通信由Java內存模型(本文簡稱為JMM)控制,JMM決定一個線程對共享變量的寫入何時對另一個線程可見。從抽象的角度來看,JMM定義了線程和主內存之間的抽象關系:線程之間的共享變量存儲在主內存(main memory)中,每個線程都有一個私有的本地內存(local memory),本地內存中存儲了該線程以讀/寫共享變量的副本。本地內存是JMM的一個抽象概念,並不真實存在。它涵蓋了緩存,寫緩沖區,寄存器以及其他的硬件和編譯器優化。Java內存模型的抽象示意圖如下:
從上圖來看,線程A與線程B之間如要通信的話,必須要經歷下面2個步驟:
- 首先,線程A把本地內存A中更新過的共享變量刷新到主內存中去。
- 然后,線程B到主內存中去讀取線程A之前已更新過的共享變量。
下面通過示意圖來說明這兩個步驟:
如上圖所示,本地內存A和B有主內存中共享變量x的副本。假設初始時,這三個內存中的x值都為0。線程A在執行時,把更新后的x值(假設值為1)臨時存放在自己的本地內存A中。當線程A和線程B需要通信時,線程A首先會把自己本地內存中修改后的x值刷新到主內存中,此時主內存中的x值變為了1。隨后,線程B到主內存中去讀取線程A更新后的x值,此時線程B的本地內存的x值也變為了1。
從整體來看,這兩個步驟實質上是線程A在向線程B發送消息,而且這個通信過程必須要經過主內存。JMM通過控制主內存與每個線程的本地內存之間的交互,來為java程序員提供內存可見性保證。
重排序
在執行程序時為了提高性能,編譯器和處理器常常會對指令做重排序。重排序分三種類型:
- 編譯器優化的重排序。編譯器在不改變單線程程序語義的前提下,可以重新安排語句的執行順序。
- 指令級並行的重排序。現代處理器采用了指令級並行技術(Instruction-Level Parallelism, ILP)來將多條指令重疊執行。如果不存在數據依賴性,處理器可以改變語句對應機器指令的執行順序。
- 內存系統的重排序。由於處理器使用緩存和讀/寫緩沖區,這使得加載和存儲操作看上去可能是在亂序執行。
從java源代碼到最終實際執行的指令序列,會分別經歷下面三種重排序:
上述的1屬於編譯器重排序,2和3屬於處理器重排序。這些重排序都可能會導致多線程程序出現內存可見性問題。對於編譯器,JMM的編譯器重排序規則會禁止特定類型的編譯器重排序(不是所有的編譯器重排序都要禁止)。對於處理器重排序,JMM的處理器重排序規則會要求java編譯器在生成指令序列時,插入特定類型的內存屏障(memory barriers,intel稱之為memory fence)指令,通過內存屏障指令來禁止特定類型的處理器重排序(不是所有的處理器重排序都要禁止)。
JMM屬於語言級的內存模型,它確保在不同的編譯器和不同的處理器平台之上,通過禁止特定類型的編譯器重排序和處理器重排序,為程序員提供一致的內存可見性保證。
處理器重排序與內存屏障指令
現代的處理器使用寫緩沖區來臨時保存向內存寫入的數據。寫緩沖區可以保證指令流水線持續運行,它可以避免由於處理器停頓下來等待向內存寫入數據而產生的延遲。同時,通過以批處理的方式刷新寫緩沖區,以及合並寫緩沖區中對同一內存地址的多次寫,可以減少對內存總線的占用。雖然寫緩沖區有這么多好處,但每個處理器上的寫緩沖區,僅僅對它所在的處理器可見。這個特性會對內存操作的執行順序產生重要的影響:處理器對內存的讀/寫操作的執行順序,不一定與內存實際發生的讀/寫操作順序一致!為了具體說明,請看下面示例:
Processor A | Processor B |
---|---|
a = 1; //A1 x = b; //A2 |
b = 2; //B1 y = a; //B2 |
初始狀態:a = b = 0 處理器允許執行后得到結果:x = y = 0 |
假設處理器A和處理器B按程序的順序並行執行內存訪問,最終卻可能得到x = y = 0的結果。具體的原因如下圖所示:
這里處理器A和處理器B可以同時把共享變量寫入自己的寫緩沖區(A1,B1),然后從內存中讀取另一個共享變量(A2,B2),最后才把自己寫緩存區中保存的臟數據刷新到內存中(A3,B3)。當以這種時序執行時,程序就可以得到x = y = 0的結果。
從內存操作實際發生的順序來看,直到處理器A執行A3來刷新自己的寫緩存區,寫操作A1才算真正執行了。雖然處理器A執行內存操作的順序為:A1->A2,但內存操作實際發生的順序卻是:A2->A1。此時,處理器A的內存操作順序被重排序了(處理器B的情況和處理器A一樣,這里就不贅述了)。
這里的關鍵是,由於寫緩沖區僅對自己的處理器可見,它會導致處理器執行內存操作的順序可能會與內存實際的操作執行順序不一致。由於現代的處理器都會使用寫緩沖區,因此現代的處理器都會允許對寫-讀操做重排序。
下面是常見處理器允許的重排序類型的列表:
Load-Load | Load-Store | Store-Store | Store-Load | 數據依賴 | |
sparc-TSO | N | N | N | Y | N |
x86 | N | N | N | Y | N |
ia64 | Y | Y | Y | Y | N |
PowerPC | Y | Y | Y | Y | N |
上表單元格中的“N”表示處理器不允許兩個操作重排序,“Y”表示允許重排序。
從上表我們可以看出:常見的處理器都允許Store-Load重排序;常見的處理器都不允許對存在數據依賴的操作做重排序。sparc-TSO和x86擁有相對較強的處理器內存模型,它們僅允許對寫-讀操作做重排序(因為它們都使用了寫緩沖區)。
※注1:sparc-TSO是指以TSO(Total Store Order)內存模型運行時,sparc處理器的特性。
※注2:上表中的x86包括x64及AMD64。
※注3:由於ARM處理器的內存模型與PowerPC處理器的內存模型非常類似,本文將忽略它。
※注4:數據依賴性后文會專門說明。
為了保證內存可見性,java編譯器在生成指令序列的適當位置會插入內存屏障指令來禁止特定類型的處理器重排序。JMM把內存屏障指令分為下列四類:
屏障類型 | 指令示例 | 說明 |
LoadLoad Barriers | Load1; LoadLoad; Load2 | 確保Load1數據的裝載,之前於Load2及所有后續裝載指令的裝載。 |
StoreStore Barriers | Store1; StoreStore; Store2 | 確保Store1數據對其他處理器可見(刷新到內存),之前於Store2及所有后續存儲指令的存儲。 |
LoadStore Barriers | Load1; LoadStore; Store2 | 確保Load1數據裝載,之前於Store2及所有后續的存儲指令刷新到內存。 |
StoreLoad Barriers | Store1; StoreLoad; Load2 | 確保Store1數據對其他處理器變得可見(指刷新到內存),之前於Load2及所有后續裝載指令的裝載。StoreLoad Barriers會使該屏障之前的所有內存訪問指令(存儲和裝載指令)完成之后,才執行該屏障之后的內存訪問指令。 |
StoreLoad Barriers是一個“全能型”的屏障,它同時具有其他三個屏障的效果。現代的多處理器大都支持該屏障(其他類型的屏障不一定被所有處理器支持)。執行該屏障開銷會很昂貴,因為當前處理器通常要把寫緩沖區中的數據全部刷新到內存中(buffer fully flush)。
happens-before
從JDK5開始,java使用新的JSR -133內存模型(本文除非特別說明,針對的都是JSR- 133內存模型)。JSR-133提出了happens-before的概念,通過這個概念來闡述操作之間的內存可見性。如果一個操作執行的結果需要對另一個操作可見,那么這兩個操作之間必須存在happens-before關系。這里提到的兩個操作既可以是在一個線程之內,也可以是在不同線程之間。 與程序員密切相關的happens-before規則如下:
- 程序順序規則:一個線程中的每個操作,happens- before 於該線程中的任意后續操作。
- 監視器鎖規則:對一個監視器鎖的解鎖,happens- before 於隨后對這個監視器鎖的加鎖。
- volatile變量規則:對一個volatile域的寫,happens- before 於任意后續對這個volatile域的讀。
- 傳遞性:如果A happens- before B,且B happens- before C,那么A happens- before C。
注意,兩個操作之間具有happens-before關系,並不意味着前一個操作必須要在后一個操作之前執行!happens-before僅僅要求前一個操作(執行的結果)對后一個操作可見,且前一個操作按順序排在第二個操作之前(the first is visible to and ordered before the second)。happens- before的定義很微妙,后文會具體說明happens-before為什么要這么定義。
happens-before與JMM的關系如下圖所示:
如上圖所示,一個happens-before規則通常對應於多個編譯器重排序規則和處理器重排序規則。對於java程序員來說,happens-before規則簡單易懂,它避免程序員為了理解JMM提供的內存可見性保證而去學習復雜的重排序規則以及這些規則的具體實現。
深入理解Java內存模型(二)——重排序
數據依賴性
如果兩個操作訪問同一個變量,且這兩個操作中有一個為寫操作,此時這兩個操作之間就存在數據依賴性。數據依賴分下列三種類型:
名稱 | 代碼示例 | 說明 |
寫后讀 | a = 1;b = a; | 寫一個變量之后,再讀這個位置。 |
寫后寫 | a = 1;a = 2; | 寫一個變量之后,再寫這個變量。 |
讀后寫 | a = b;b = 1; | 讀一個變量之后,再寫這個變量。 |
上面三種情況,只要重排序兩個操作的執行順序,程序的執行結果將會被改變。
前面提到過,編譯器和處理器可能會對操作做重排序。編譯器和處理器在重排序時,會遵守數據依賴性,編譯器和處理器不會改變存在數據依賴關系的兩個操作的執行順序。
注意,這里所說的數據依賴性僅針對單個處理器中執行的指令序列和單個線程中執行的操作,不同處理器之間和不同線程之間的數據依賴性不被編譯器和處理器考慮。
as-if-serial語義
as-if-serial語義的意思指:不管怎么重排序(編譯器和處理器為了提高並行度),(單線程)程序的執行結果不能被改變。編譯器,runtime 和處理器都必須遵守as-if-serial語義。
為了遵守as-if-serial語義,編譯器和處理器不會對存在數據依賴關系的操作做重排序,因為這種重排序會改變執行結果。但是,如果操作之間不存在數據依賴關系,這些操作可能被編譯器和處理器重排序。為了具體說明,請看下面計算圓面積的代碼示例:
double pi = 3.14; //A double r = 1.0; //B double area = pi * r * r; //C
上面三個操作的數據依賴關系如下圖所示:
如上圖所示,A和C之間存在數據依賴關系,同時B和C之間也存在數據依賴關系。因此在最終執行的指令序列中,C不能被重排序到A和B的前面(C排到A和B的前面,程序的結果將會被改變)。但A和B之間沒有數據依賴關系,編譯器和處理器可以重排序A和B之間的執行順序。下圖是該程序的兩種執行順序:
as-if-serial語義把單線程程序保護了起來,遵守as-if-serial語義的編譯器,runtime 和處理器共同為編寫單線程程序的程序員創建了一個幻覺:單線程程序是按程序的順序來執行的。as-if-serial語義使單線程程序員無需擔心重排序會干擾他們,也無需擔心內存可見性問題。
程序順序規則
根據happens- before的程序順序規則,上面計算圓的面積的示例代碼存在三個happens- before關系:
- A happens- before B;
- B happens- before C;
- A happens- before C;
這里的第3個happens- before關系,是根據happens- before的傳遞性推導出來的。
這里A happens- before B,但實際執行時B卻可以排在A之前執行(看上面的重排序后的執行順序)。在第一章提到過,如果A happens- before B,JMM並不要求A一定要在B之前執行。JMM僅僅要求前一個操作(執行的結果)對后一個操作可見,且前一個操作按順序排在第二個操作之前。這里操作A的執行結果不需要對操作B可見;而且重排序操作A和操作B后的執行結果,與操作A和操作B按happens- before順序執行的結果一致。在這種情況下,JMM會認為這種重排序並不非法(not illegal),JMM允許這種重排序。
在計算機中,軟件技術和硬件技術有一個共同的目標:在不改變程序執行結果的前提下,盡可能的開發並行度。編譯器和處理器遵從這一目標,從happens- before的定義我們可以看出,JMM同樣遵從這一目標。
重排序對多線程的影響
現在讓我們來看看,重排序是否會改變多線程程序的執行結果。請看下面的示例代碼:
class ReorderExample { int a = 0; boolean flag = false; public void writer() { a = 1; //1 flag = true; //2 } Public void reader() { if (flag) { //3 int i = a * a; //4 …… } } }
flag變量是個標記,用來標識變量a是否已被寫入。這里假設有兩個線程A和B,A首先執行writer()方法,隨后B線程接着執行reader()方法。線程B在執行操作4時,能否看到線程A在操作1對共享變量a的寫入?
答案是:不一定能看到。
由於操作1和操作2沒有數據依賴關系,編譯器和處理器可以對這兩個操作重排序;同樣,操作3和操作4沒有數據依賴關系,編譯器和處理器也可以對這兩個操作重排序。讓我們先來看看,當操作1和操作2重排序時,可能會產生什么效果?請看下面的程序執行時序圖:
如上圖所示,操作1和操作2做了重排序。程序執行時,線程A首先寫標記變量flag,隨后線程B讀這個變量。由於條件判斷為真,線程B將讀取變量a。此時,變量a還根本沒有被線程A寫入,在這里多線程程序的語義被重排序破壞了!
※注:本文統一用紅色的虛箭線表示錯誤的讀操作,用綠色的虛箭線表示正確的讀操作。
下面再讓我們看看,當操作3和操作4重排序時會產生什么效果(借助這個重排序,可以順便說明控制依賴性)。下面是操作3和操作4重排序后,程序的執行時序圖:
在程序中,操作3和操作4存在控制依賴關系。當代碼中存在控制依賴性時,會影響指令序列執行的並行度。為此,編譯器和處理器會采用猜測(Speculation)執行來克服控制相關性對並行度的影響。以處理器的猜測執行為例,執行線程B的處理器可以提前讀取並計算a*a,然后把計算結果臨時保存到一個名為重排序緩沖(reorder buffer ROB)的硬件緩存中。當接下來操作3的條件判斷為真時,就把該計算結果寫入變量i中。
從圖中我們可以看出,猜測執行實質上對操作3和4做了重排序。重排序在這里破壞了多線程程序的語義!
在單線程程序中,對存在控制依賴的操作重排序,不會改變執行結果(這也是as-if-serial語義允許對存在控制依賴的操作做重排序的原因);但在多線程程序中,對存在控制依賴的操作重排序,可能會改變程序的執行結果。
深入理解Java內存模型(三)——順序一致性
數據競爭與順序一致性保證
當程序未正確同步時,就會存在數據競爭。java內存模型規范對數據競爭的定義如下:
- 在一個線程中寫一個變量,
- 在另一個線程讀同一個變量,
- 而且寫和讀沒有通過同步來排序。
當代碼中包含數據競爭時,程序的執行往往產生違反直覺的結果(前一章的示例正是如此)。如果一個多線程程序能正確同步,這個程序將是一個沒有數據競爭的程序。
JMM對正確同步的多線程程序的內存一致性做了如下保證:
- 如果程序是正確同步的,程序的執行將具有順序一致性(sequentially consistent)--即程序的執行結果與該程序在順序一致性內存模型中的執行結果相同(馬上我們將會看到,這對於程序員來說是一個極強的保證)。這里的同步是指廣義上的同步,包括對常用同步原語(lock,volatile和final)的正確使用。
順序一致性內存模型
順序一致性內存模型是一個被計算機科學家理想化了的理論參考模型,它為程序員提供了極強的內存可見性保證。順序一致性內存模型有兩大特性:
- 一個線程中的所有操作必須按照程序的順序來執行。
- (不管程序是否同步)所有線程都只能看到一個單一的操作執行順序。在順序一致性內存模型中,每個操作都必須原子執行且立刻對所有線程可見。
順序一致性內存模型為程序員提供的視圖如下:
在概念上,順序一致性模型有一個單一的全局內存,這個內存通過一個左右擺動的開關可以連接到任意一個線程。同時,每一個線程必須按程序的順序來執行內存讀/寫操作。從上圖我們可以看出,在任意時間點最多只能有一個線程可以連接到內存。當多個線程並發執行時,圖中的開關裝置能把所有線程的所有內存讀/寫操作串行化。
為了更好的理解,下面我們通過兩個示意圖來對順序一致性模型的特性做進一步的說明。
假設有兩個線程A和B並發執行。其中A線程有三個操作,它們在程序中的順序是:A1->A2->A3。B線程也有三個操作,它們在程序中的順序是:B1->B2->B3。
假設這兩個線程使用監視器來正確同步:A線程的三個操作執行后釋放監視器,隨后B線程獲取同一個監視器。那么程序在順序一致性模型中的執行效果將如下圖所示:
現在我們再假設這兩個線程沒有做同步,下面是這個未同步程序在順序一致性模型中的執行示意圖:
未同步程序在順序一致性模型中雖然整體執行順序是無序的,但所有線程都只能看到一個一致的整體執行順序。以上圖為例,線程A和B看到的執行順序都是:B1->A1->A2->B2->A3->B3。之所以能得到這個保證是因為順序一致性內存模型中的每個操作必須立即對任意線程可見。
但是,在JMM中就沒有這個保證。未同步程序在JMM中不但整體的執行順序是無序的,而且所有線程看到的操作執行順序也可能不一致。比如,在當前線程把寫過的數據緩存在本地內存中,且還沒有刷新到主內存之前,這個寫操作僅對當前線程可見;從其他線程的角度來觀察,會認為這個寫操作根本還沒有被當前線程執行。只有當前線程把本地內存中寫過的數據刷新到主內存之后,這個寫操作才能對其他線程可見。在這種情況下,當前線程和其它線程看到的操作執行順序將不一致。
同步程序的順序一致性效果
下面我們對前面的示例程序ReorderExample用監視器來同步,看看正確同步的程序如何具有順序一致性。
請看下面的示例代碼:
class SynchronizedExample { int a = 0; boolean flag = false; public synchronized void writer() { a = 1; flag = true; } public synchronized void reader() { if (flag) { int i = a; …… } } }
上面示例代碼中,假設A線程執行writer()方法后,B線程執行reader()方法。這是一個正確同步的多線程程序。根據JMM規范,該程序的執行結果將與該程序在順序一致性模型中的執行結果相同。下面是該程序在兩個內存模型中的執行時序對比圖:
在順序一致性模型中,所有操作完全按程序的順序串行執行。而在JMM中,臨界區內的代碼可以重排序(但JMM不允許臨界區內的代碼“逸出”到臨界區之外,那樣會破壞監視器的語義)。JMM會在退出監視器和進入監視器這兩個關鍵時間點做一些特別處理,使得線程在這兩個時間點具有與順序一致性模型相同的內存視圖(具體細節后文會說明)。雖然線程A在臨界區內做了重排序,但由於監視器的互斥執行的特性,這里的線程B根本無法“觀察”到線程A在臨界區內的重排序。這種重排序既提高了執行效率,又沒有改變程序的執行結果。
從這里我們可以看到JMM在具體實現上的基本方針:在不改變(正確同步的)程序執行結果的前提下,盡可能的為編譯器和處理器的優化打開方便之門。
未同步程序的執行特性
對於未同步或未正確同步的多線程程序,JMM只提供最小安全性:線程執行時讀取到的值,要么是之前某個線程寫入的值,要么是默認值(0,null,false),JMM保證線程讀操作讀取到的值不會無中生有(out of thin air)的冒出來。為了實現最小安全性,JVM在堆上分配對象時,首先會清零內存空間,然后才會在上面分配對象(JVM內部會同步這兩個操作)。因此,在以清零的內存空間(pre-zeroed memory)分配對象時,域的默認初始化已經完成了。
JMM不保證未同步程序的執行結果與該程序在順序一致性模型中的執行結果一致。因為未同步程序在順序一致性模型中執行時,整體上是無序的,其執行結果無法預知。保證未同步程序在兩個模型中的執行結果一致毫無意義。
和順序一致性模型一樣,未同步程序在JMM中的執行時,整體上也是無序的,其執行結果也無法預知。同時,未同步程序在這兩個模型中的執行特性有下面幾個差異:
- 順序一致性模型保證單線程內的操作會按程序的順序執行,而JMM不保證單線程內的操作會按程序的順序執行(比如上面正確同步的多線程程序在臨界區內的重排序)。這一點前面已經講過了,這里就不再贅述。
- 順序一致性模型保證所有線程只能看到一致的操作執行順序,而JMM不保證所有線程能看到一致的操作執行順序。這一點前面也已經講過,這里就不再贅述。
- JMM不保證對64位的long型和double型變量的讀/寫操作具有原子性,而順序一致性模型保證對所有的內存讀/寫操作都具有原子性。
第3個差異與處理器總線的工作機制密切相關。在計算機中,數據通過總線在處理器和內存之間傳遞。每次處理器和內存之間的數據傳遞都是通過一系列步驟來完成的,這一系列步驟稱之為總線事務(bus transaction)。總線事務包括讀事務(read transaction)和寫事務(write transaction)。讀事務從內存傳送數據到處理器,寫事務從處理器傳送數據到內存,每個事務會讀/寫內存中一個或多個物理上連續的字。這里的關鍵是,總線會同步試圖並發使用總線的事務。在一個處理器執行總線事務期間,總線會禁止其它所有的處理器和I/O設備執行內存的讀/寫。下面讓我們通過一個示意圖來說明總線的工作機制:
如上圖所示,假設處理器A,B和C同時向總線發起總線事務,這時總線仲裁(bus arbitration)會對競爭作出裁決,這里我們假設總線在仲裁后判定處理器A在競爭中獲勝(總線仲裁會確保所有處理器都能公平的訪問內存)。此時處理器A繼續它的總線事務,而其它兩個處理器則要等待處理器A的總線事務完成后才能開始再次執行內存訪問。假設在處理器A執行總線事務期間(不管這個總線事務是讀事務還是寫事務),處理器D向總線發起了總線事務,此時處理器D的這個請求會被總線禁止。
總線的這些工作機制可以把所有處理器對內存的訪問以串行化的方式來執行;在任意時間點,最多只能有一個處理器能訪問內存。這個特性確保了單個總線事務之中的內存讀/寫操作具有原子性。
在一些32位的處理器上,如果要求對64位數據的讀/寫操作具有原子性,會有比較大的開銷。為了照顧這種處理器,java語言規范鼓勵但不強求JVM對64位的long型變量和double型變量的讀/寫具有原子性。當JVM在這種處理器上運行時,會把一個64位long/ double型變量的讀/寫操作拆分為兩個32位的讀/寫操作來執行。這兩個32位的讀/寫操作可能會被分配到不同的總線事務中執行,此時對這個64位變量的讀/寫將不具有原子性。
當單個內存操作不具有原子性,將可能會產生意想不到后果。請看下面示意圖:
如上圖所示,假設處理器A寫一個long型變量,同時處理器B要讀這個long型變量。處理器A中64位的寫操作被拆分為兩個32位的寫操作,且這兩個32位的寫操作被分配到不同的寫事務中執行。同時處理器B中64位的讀操作被拆分為兩個32位的讀操作,且這兩個32位的讀操作被分配到同一個的讀事務中執行。當處理器A和B按上圖的時序來執行時,處理器B將看到僅僅被處理器A“寫了一半“的無效值。
深入理解Java內存模型(四)——volatile
volatile的特性
當我們聲明共享變量為volatile后,對這個變量的讀/寫將會很特別。理解volatile特性的一個好方法是:把對volatile變量的單個讀/寫,看成是使用同一個監視器鎖對這些單個讀/寫操作做了同步。下面我們通過具體的示例來說明,請看下面的示例代碼:
class VolatileFeaturesExample { volatile long vl = 0L; //使用volatile聲明64位的long型變量 public void set(long l) { vl = l; //單個volatile變量的寫 } public void getAndIncrement () { vl++; //復合(多個)volatile變量的讀/寫 } public long get() { return vl; //單個volatile變量的讀 } }
假設有多個線程分別調用上面程序的三個方法,這個程序在語意上和下面程序等價:
class VolatileFeaturesExample { long vl = 0L; // 64位的long型普通變量 public synchronized void set(long l) { //對單個的普通 變量的寫用同一個監視器同步 vl = l; } public void getAndIncrement () { //普通方法調用 long temp = get(); //調用已同步的讀方法 temp += 1L; //普通寫操作 set(temp); //調用已同步的寫方法 } public synchronized long get() { //對單個的普通變量的讀用同一個監視器同步 return vl; } }
如上面示例程序所示,對一個volatile變量的單個讀/寫操作,與對一個普通變量的讀/寫操作使用同一個監視器鎖來同步,它們之間的執行效果相同。
監視器鎖的happens-before規則保證釋放監視器和獲取監視器的兩個線程之間的內存可見性,這意味着對一個volatile變量的讀,總是能看到(任意線程)對這個volatile變量最后的寫入。
監視器鎖的語義決定了臨界區代碼的執行具有原子性。這意味着即使是64位的long型和double型變量,只要它是volatile變量,對該變量的讀寫就將具有原子性。如果是多個volatile操作或類似於volatile++這種復合操作,這些操作整體上不具有原子性。
簡而言之,volatile變量自身具有下列特性:
- 可見性。對一個volatile變量的讀,總是能看到(任意線程)對這個volatile變量最后的寫入。
- 原子性:對任意單個volatile變量的讀/寫具有原子性,但類似於volatile++這種復合操作不具有原子性。
volatile寫-讀建立的happens before關系
上面講的是volatile變量自身的特性,對程序員來說,volatile對線程的內存可見性的影響比volatile自身的特性更為重要,也更需要我們去關注。
從JSR-133開始,volatile變量的寫-讀可以實現線程之間的通信。
從內存語義的角度來說,volatile與監視器鎖有相同的效果:volatile寫和監視器的釋放有相同的內存語義;volatile讀與監視器的獲取有相同的內存語義。
請看下面使用volatile變量的示例代碼:
class VolatileExample { int a = 0; volatile boolean flag = false; public void writer() { a = 1; //1 flag = true; //2 } public void reader() { if (flag) { //3 int i = a; //4 …… } } }
假設線程A執行writer()方法之后,線程B執行reader()方法。根據happens before規則,這個過程建立的happens before 關系可以分為兩類:
- 根據程序次序規則,1 happens before 2; 3 happens before 4。
- 根據volatile規則,2 happens before 3。
- 根據happens before 的傳遞性規則,1 happens before 4。
上述happens before 關系的圖形化表現形式如下:
在上圖中,每一個箭頭鏈接的兩個節點,代表了一個happens before 關系。黑色箭頭表示程序順序規則;橙色箭頭表示volatile規則;藍色箭頭表示組合這些規則后提供的happens before保證。
這里A線程寫一個volatile變量后,B線程讀同一個volatile變量。A線程在寫volatile變量之前所有可見的共享變量,在B線程讀同一個volatile變量后,將立即變得對B線程可見。
volatile寫-讀的內存語義
volatile寫的內存語義如下:
- 當寫一個volatile變量時,JMM會把該線程對應的本地內存中的共享變量刷新到主內存。
以上面示例程序VolatileExample為例,假設線程A首先執行writer()方法,隨后線程B執行reader()方法,初始時兩個線程的本地內存中的flag和a都是初始狀態。下圖是線程A執行volatile寫后,共享變量的狀態示意圖:
如上圖所示,線程A在寫flag變量后,本地內存A中被線程A更新過的兩個共享變量的值被刷新到主內存中。此時,本地內存A和主內存中的共享變量的值是一致的。
volatile讀的內存語義如下:
- 當讀一個volatile變量時,JMM會把該線程對應的本地內存置為無效。線程接下來將從主內存中讀取共享變量。
下面是線程B讀同一個volatile變量后,共享變量的狀態示意圖:
如上圖所示,在讀flag變量后,本地內存B已經被置為無效。此時,線程B必須從主內存中讀取共享變量。線程B的讀取操作將導致本地內存B與主內存中的共享變量的值也變成一致的了。
如果我們把volatile寫和volatile讀這兩個步驟綜合起來看的話,在讀線程B讀一個volatile變量后,寫線程A在寫這個volatile變量之前所有可見的共享變量的值都將立即變得對讀線程B可見。
下面對volatile寫和volatile讀的內存語義做個總結:
- 線程A寫一個volatile變量,實質上是線程A向接下來將要讀這個volatile變量的某個線程發出了(其對共享變量所在修改的)消息。
- 線程B讀一個volatile變量,實質上是線程B接收了之前某個線程發出的(在寫這個volatile變量之前對共享變量所做修改的)消息。
- 線程A寫一個volatile變量,隨后線程B讀這個volatile變量,這個過程實質上是線程A通過主內存向線程B發送消息。
volatile內存語義的實現
下面,讓我們來看看JMM如何實現volatile寫/讀的內存語義。
前文我們提到過重排序分為編譯器重排序和處理器重排序。為了實現volatile內存語義,JMM會分別限制這兩種類型的重排序類型。下面是JMM針對編譯器制定的volatile重排序規則表:
是否能重排序 | 第二個操作 | ||
第一個操作 | 普通讀/寫 | volatile讀 | volatile寫 |
普通讀/寫 | NO | ||
volatile讀 | NO | NO | NO |
volatile寫 | NO | NO |
舉例來說,第三行最后一個單元格的意思是:在程序順序中,當第一個操作為普通變量的讀或寫時,如果第二個操作為volatile寫,則編譯器不能重排序這兩個操作。
從上表我們可以看出:
- 當第二個操作是volatile寫時,不管第一個操作是什么,都不能重排序。這個規則確保volatile寫之前的操作不會被編譯器重排序到volatile寫之后。
- 當第一個操作是volatile讀時,不管第二個操作是什么,都不能重排序。這個規則確保volatile讀之后的操作不會被編譯器重排序到volatile讀之前。
- 當第一個操作是volatile寫,第二個操作是volatile讀時,不能重排序。
為了實現volatile的內存語義,編譯器在生成字節碼時,會在指令序列中插入內存屏障來禁止特定類型的處理器重排序。對於編譯器來說,發現一個最優布置來最小化插入屏障的總數幾乎不可能,為此,JMM采取保守策略。下面是基於保守策略的JMM內存屏障插入策略:
- 在每個volatile寫操作的前面插入一個StoreStore屏障。
- 在每個volatile寫操作的后面插入一個StoreLoad屏障。
- 在每個volatile讀操作的后面插入一個LoadLoad屏障。
- 在每個volatile讀操作的后面插入一個LoadStore屏障。
上述內存屏障插入策略非常保守,但它可以保證在任意處理器平台,任意的程序中都能得到正確的volatile內存語義。
下面是保守策略下,volatile寫插入內存屏障后生成的指令序列示意圖:
上圖中的StoreStore屏障可以保證在volatile寫之前,其前面的所有普通寫操作已經對任意處理器可見了。這是因為StoreStore屏障將保障上面所有的普通寫在volatile寫之前刷新到主內存。
這里比較有意思的是volatile寫后面的StoreLoad屏障。這個屏障的作用是避免volatile寫與后面可能有的volatile讀/寫操作重排序。因為編譯器常常無法准確判斷在一個volatile寫的后面,是否需要插入一個StoreLoad屏障(比如,一個volatile寫之后方法立即return)。為了保證能正確實現volatile的內存語義,JMM在這里采取了保守策略:在每個volatile寫的后面或在每個volatile讀的前面插入一個StoreLoad屏障。從整體執行效率的角度考慮,JMM選擇了在每個volatile寫的后面插入一個StoreLoad屏障。因為volatile寫-讀內存語義的常見使用模式是:一個寫線程寫volatile變量,多個讀線程讀同一個volatile變量。當讀線程的數量大大超過寫線程時,選擇在volatile寫之后插入StoreLoad屏障將帶來可觀的執行效率的提升。從這里我們可以看到JMM在實現上的一個特點:首先確保正確性,然后再去追求執行效率。
下面是在保守策略下,volatile讀插入內存屏障后生成的指令序列示意圖:
上圖中的LoadLoad屏障用來禁止處理器把上面的volatile讀與下面的普通讀重排序。LoadStore屏障用來禁止處理器把上面的volatile讀與下面的普通寫重排序。
上述volatile寫和volatile讀的內存屏障插入策略非常保守。在實際執行時,只要不改變volatile寫-讀的內存語義,編譯器可以根據具體情況省略不必要的屏障。下面我們通過具體的示例代碼來說明:
class VolatileBarrierExample { int a; volatile int v1 = 1; volatile int v2 = 2; void readAndWrite() { int i = v1; //第一個volatile讀 int j = v2; // 第二個volatile讀 a = i + j; //普通寫 v1 = i + 1; // 第一個volatile寫 v2 = j * 2; //第二個 volatile寫 } … //其他方法 }
針對readAndWrite()方法,編譯器在生成字節碼時可以做如下的優化:
注意,最后的StoreLoad屏障不能省略。因為第二個volatile寫之后,方法立即return。此時編譯器可能無法准確斷定后面是否會有volatile讀或寫,為了安全起見,編譯器常常會在這里插入一個StoreLoad屏障。
上面的優化是針對任意處理器平台,由於不同的處理器有不同“松緊度”的處理器內存模型,內存屏障的插入還可以根據具體的處理器內存模型繼續優化。以x86處理器為例,上圖中除最后的StoreLoad屏障外,其它的屏障都會被省略。
前面保守策略下的volatile讀和寫,在 x86處理器平台可以優化成:
前文提到過,x86處理器僅會對寫-讀操作做重排序。X86不會對讀-讀,讀-寫和寫-寫操作做重排序,因此在x86處理器中會省略掉這三種操作類型對應的內存屏障。在x86中,JMM僅需在volatile寫后面插入一個StoreLoad屏障即可正確實現volatile寫-讀的內存語義。這意味着在x86處理器中,volatile寫的開銷比volatile讀的開銷會大很多(因為執行StoreLoad屏障開銷會比較大)。
JSR-133為什么要增強volatile的內存語義
在JSR-133之前的舊Java內存模型中,雖然不允許volatile變量之間重排序,但舊的Java內存模型允許volatile變量與普通變量之間重排序。在舊的內存模型中,VolatileExample示例程序可能被重排序成下列時序來執行:
在舊的內存模型中,當1和2之間沒有數據依賴關系時,1和2之間就可能被重排序(3和4類似)。其結果就是:讀線程B執行4時,不一定能看到寫線程A在執行1時對共享變量的修改。
因此在舊的內存模型中 ,volatile的寫-讀沒有監視器的釋放-獲所具有的內存語義。為了提供一種比監視器鎖更輕量級的線程之間通信的機制,JSR-133專家組決定增強volatile的內存語義:嚴格限制編譯器和處理器對volatile變量與普通變量的重排序,確保volatile的寫-讀和監視器的釋放-獲取一樣,具有相同的內存語義。從編譯器重排序規則和處理器內存屏障插入策略來看,只要volatile變量與普通變量之間的重排序可能會破壞volatile的內存語意,這種重排序就會被編譯器重排序規則和處理器內存屏障插入策略禁止。
由於volatile僅僅保證對單個volatile變量的讀/寫具有原子性,而監視器鎖的互斥執行的特性可以確保對整個臨界區代碼的執行具有原子性。在功能上,監視器鎖比volatile更強大;在可伸縮性和執行性能上,volatile更有優勢。如果讀者想在程序中用volatile代替監視器鎖,請一定謹慎。
深入理解Java內存模型(五)——鎖
鎖的釋放-獲取建立的happens before 關系
鎖是java並發編程中最重要的同步機制。鎖除了讓臨界區互斥執行外,還可以讓釋放鎖的線程向獲取同一個鎖的線程發送消息。
下面是鎖釋放-獲取的示例代碼:
class MonitorExample { int a = 0; public synchronized void writer() { //1 a++; //2 } //3 public synchronized void reader() { //4 int i = a; //5 …… } //6 }
假設線程A執行writer()方法,隨后線程B執行reader()方法。根據happens before規則,這個過程包含的happens before 關系可以分為兩類:
- 根據程序次序規則,1 happens before 2, 2 happens before 3; 4 happens before 5, 5 happens before 6。
- 根據監視器鎖規則,3 happens before 4。
- 根據happens before 的傳遞性,2 happens before 5。
上述happens before 關系的圖形化表現形式如下:
在上圖中,每一個箭頭鏈接的兩個節點,代表了一個happens before 關系。黑色箭頭表示程序順序規則;橙色箭頭表示監視器鎖規則;藍色箭頭表示組合這些規則后提供的happens before保證。
上圖表示在線程A釋放了鎖之后,隨后線程B獲取同一個鎖。在上圖中,2 happens before 5。因此,線程A在釋放鎖之前所有可見的共享變量,在線程B獲取同一個鎖之后,將立刻變得對B線程可見。
鎖釋放和獲取的內存語義
當線程釋放鎖時,JMM會把該線程對應的本地內存中的共享變量刷新到主內存中。以上面的MonitorExample程序為例,A線程釋放鎖后,共享數據的狀態示意圖如下:
當線程獲取鎖時,JMM會把該線程對應的本地內存置為無效。從而使得被監視器保護的臨界區代碼必須要從主內存中去讀取共享變量。下面是鎖獲取的狀態示意圖:
對比鎖釋放-獲取的內存語義與volatile寫-讀的內存語義,可以看出:鎖釋放與volatile寫有相同的內存語義;鎖獲取與volatile讀有相同的內存語義。
下面對鎖釋放和鎖獲取的內存語義做個總結:
- 線程A釋放一個鎖,實質上是線程A向接下來將要獲取這個鎖的某個線程發出了(線程A對共享變量所做修改的)消息。
- 線程B獲取一個鎖,實質上是線程B接收了之前某個線程發出的(在釋放這個鎖之前對共享變量所做修改的)消息。
- 線程A釋放鎖,隨后線程B獲取這個鎖,這個過程實質上是線程A通過主內存向線程B發送消息。
鎖內存語義的實現
本文將借助ReentrantLock的源代碼,來分析鎖內存語義的具體實現機制。
請看下面的示例代碼:
class ReentrantLockExample { int a = 0; ReentrantLock lock = new ReentrantLock(); public void writer() { lock.lock(); //獲取鎖 try { a++; } finally { lock.unlock(); //釋放鎖 } } public void reader () { lock.lock(); //獲取鎖 try { int i = a; …… } finally { lock.unlock(); //釋放鎖 } } }
在ReentrantLock中,調用lock()方法獲取鎖;調用unlock()方法釋放鎖。
ReentrantLock的實現依賴於java同步器框架AbstractQueuedSynchronizer(本文簡稱之為AQS)。AQS使用一個整型的volatile變量(命名為state)來維護同步狀態,馬上我們會看到,這個volatile變量是ReentrantLock內存語義實現的關鍵。 下面是ReentrantLock的類圖(僅畫出與本文相關的部分):
ReentrantLock分為公平鎖和非公平鎖,我們首先分析公平鎖。
使用公平鎖時,加鎖方法lock()的方法調用軌跡如下:
- ReentrantLock : lock()
- FairSync : lock()
- AbstractQueuedSynchronizer : acquire(int arg)
- ReentrantLock : tryAcquire(int acquires)
在第4步真正開始加鎖,下面是該方法的源代碼:
protected final boolean tryAcquire(int acquires) { final Thread current = Thread.currentThread(); int c = getState(); //獲取鎖的開始,首先讀volatile變量state if (c == 0) { if (isFirst(current) && compareAndSetState(0, acquires)) { setExclusiveOwnerThread(current); return true; } } else if (current == getExclusiveOwnerThread()) { int nextc = c + acquires; if (nextc < 0) throw new Error("Maximum lock count exceeded"); setState(nextc); return true; } return false; }
從上面源代碼中我們可以看出,加鎖方法首先讀volatile變量state。
在使用公平鎖時,解鎖方法unlock()的方法調用軌跡如下:
- ReentrantLock : unlock()
- AbstractQueuedSynchronizer : release(int arg)
- Sync : tryRelease(int releases)
在第3步真正開始釋放鎖,下面是該方法的源代碼:
protected final boolean tryRelease(int releases) { int c = getState() - releases; if (Thread.currentThread() != getExclusiveOwnerThread()) throw new IllegalMonitorStateException(); boolean free = false; if (c == 0) { free = true; setExclusiveOwnerThread(null); } setState(c); //釋放鎖的最后,寫volatile變量state return free; }
從上面的源代碼我們可以看出,在釋放鎖的最后寫volatile變量state。
公平鎖在釋放鎖的最后寫volatile變量state;在獲取鎖時首先讀這個volatile變量。根據volatile的happens-before規則,釋放鎖的線程在寫volatile變量之前可見的共享變量,在獲取鎖的線程讀取同一個volatile變量后將立即變的對獲取鎖的線程可見。
現在我們分析非公平鎖的內存語義的實現。
非公平鎖的釋放和公平鎖完全一樣,所以這里僅僅分析非公平鎖的獲取。
使用公平鎖時,加鎖方法lock()的方法調用軌跡如下:
- ReentrantLock : lock()
- NonfairSync : lock()
- AbstractQueuedSynchronizer : compareAndSetState(int expect, int update)
在第3步真正開始加鎖,下面是該方法的源代碼:
protected final boolean compareAndSetState(int expect, int update) { return unsafe.compareAndSwapInt(this, stateOffset, expect, update); }
該方法以原子操作的方式更新state變量,本文把java的compareAndSet()方法調用簡稱為CAS。JDK文檔對該方法的說明如下:如果當前狀態值等於預期值,則以原子方式將同步狀態設置為給定的更新值。此操作具有 volatile 讀和寫的內存語義。
這里我們分別從編譯器和處理器的角度來分析,CAS如何同時具有volatile讀和volatile寫的內存語義。
前文我們提到過,編譯器不會對volatile讀與volatile讀后面的任意內存操作重排序;編譯器不會對volatile寫與volatile寫前面的任意內存操作重排序。組合這兩個條件,意味着為了同時實現volatile讀和volatile寫的內存語義,編譯器不能對CAS與CAS前面和后面的任意內存操作重排序。
下面我們來分析在常見的intel x86處理器中,CAS是如何同時具有volatile讀和volatile寫的內存語義的。
下面是sun.misc.Unsafe類的compareAndSwapInt()方法的源代碼:
public final native boolean compareAndSwapInt(Object o, long offset, int expected, int x);
可以看到這是個本地方法調用。這個本地方法在openjdk中依次調用的c++代碼為:unsafe.cpp,atomic.cpp和atomicwindowsx86.inline.hpp。這個本地方法的最終實現在openjdk的如下位置:openjdk-7-fcs-src-b147-27jun2011\openjdk\hotspot\src\oscpu\windowsx86\vm\ atomicwindowsx86.inline.hpp(對應於windows操作系統,X86處理器)。下面是對應於intel x86處理器的源代碼的片段:
// Adding a lock prefix to an instruction on MP machine // VC++ doesn't like the lock prefix to be on a single line // so we can't insert a label after the lock prefix. // By emitting a lock prefix, we can define a label after it. #define LOCK_IF_MP(mp) __asm cmp mp, 0 \ __asm je L0 \ __asm _emit 0xF0 \ __asm L0: inline jint Atomic::cmpxchg (jint exchange_value, volatile jint* dest, jint compare_value) { // alternative for InterlockedCompareExchange int mp = os::is_MP(); __asm { mov edx, dest mov ecx, exchange_value mov eax, compare_value LOCK_IF_MP(mp) cmpxchg dword ptr [edx], ecx } }
如上面源代碼所示,程序會根據當前處理器的類型來決定是否為cmpxchg指令添加lock前綴。如果程序是在多處理器上運行,就為cmpxchg指令加上lock前綴(lock cmpxchg)。反之,如果程序是在單處理器上運行,就省略lock前綴(單處理器自身會維護單處理器內的順序一致性,不需要lock前綴提供的內存屏障效果)。
intel的手冊對lock前綴的說明如下:
- 確保對內存的讀-改-寫操作原子執行。在Pentium及Pentium之前的處理器中,帶有lock前綴的指令在執行期間會鎖住總線,使得其他處理器暫時無法通過總線訪問內存。很顯然,這會帶來昂貴的開銷。從Pentium 4,Intel Xeon及P6處理器開始,intel在原有總線鎖的基礎上做了一個很有意義的優化:如果要訪問的內存區域(area of memory)在lock前綴指令執行期間已經在處理器內部的緩存中被鎖定(即包含該內存區域的緩存行當前處於獨占或以修改狀態),並且該內存區域被完全包含在單個緩存行(cache line)中,那么處理器將直接執行該指令。由於在指令執行期間該緩存行會一直被鎖定,其它處理器無法讀/寫該指令要訪問的內存區域,因此能保證指令執行的原子性。這個操作過程叫做緩存鎖定(cache locking),緩存鎖定將大大降低lock前綴指令的執行開銷,但是當多處理器之間的競爭程度很高或者指令訪問的內存地址未對齊時,仍然會鎖住總線。
- 禁止該指令與之前和之后的讀和寫指令重排序。
- 把寫緩沖區中的所有數據刷新到內存中。
上面的第2點和第3點所具有的內存屏障效果,足以同時實現volatile讀和volatile寫的內存語義。
經過上面的這些分析,現在我們終於能明白為什么JDK文檔說CAS同時具有volatile讀和volatile寫的內存語義了。
現在對公平鎖和非公平鎖的內存語義做個總結:
- 公平鎖和非公平鎖釋放時,最后都要寫一個volatile變量state。
- 公平鎖獲取時,首先會去讀這個volatile變量。
- 非公平鎖獲取時,首先會用CAS更新這個volatile變量,這個操作同時具有volatile讀和volatile寫的內存語義。
從本文對ReentrantLock的分析可以看出,鎖釋放-獲取的內存語義的實現至少有下面兩種方式:
- 利用volatile變量的寫-讀所具有的內存語義。
- 利用CAS所附帶的volatile讀和volatile寫的內存語義。
concurrent包的實現
由於java的CAS同時具有 volatile 讀和volatile寫的內存語義,因此Java線程之間的通信現在有了下面四種方式:
- A線程寫volatile變量,隨后B線程讀這個volatile變量。
- A線程寫volatile變量,隨后B線程用CAS更新這個volatile變量。
- A線程用CAS更新一個volatile變量,隨后B線程用CAS更新這個volatile變量。
- A線程用CAS更新一個volatile變量,隨后B線程讀這個volatile變量。
Java的CAS會使用現代處理器上提供的高效機器級別原子指令,這些原子指令以原子方式對內存執行讀-改-寫操作,這是在多處理器中實現同步的關鍵(從本質上來說,能夠支持原子性讀-改-寫指令的計算機器,是順序計算圖靈機的異步等價機器,因此任何現代的多處理器都會去支持某種能對內存執行原子性讀-改-寫操作的原子指令)。同時,volatile變量的讀/寫和CAS可以實現線程之間的通信。把這些特性整合在一起,就形成了整個concurrent包得以實現的基石。如果我們仔細分析concurrent包的源代碼實現,會發現一個通用化的實現模式:
- 首先,聲明共享變量為volatile;
- 然后,使用CAS的原子條件更新來實現線程之間的同步;
- 同時,配合以volatile的讀/寫和CAS所具有的volatile讀和寫的內存語義來實現線程之間的通信。
AQS,非阻塞數據結構和原子變量類(java.util.concurrent.atomic包中的類),這些concurrent包中的基礎類都是使用這種模式來實現的,而concurrent包中的高層類又是依賴於這些基礎類來實現的。從整體來看,concurrent包的實現示意圖如下:
面介紹的鎖和volatile相比較,對final域的讀和寫更像是普通的變量訪問。對於final域,編譯器和處理器要遵守兩個重排序規則:
- 在構造函數內對一個final域的寫入,與隨后把這個被構造對象的引用賦值給一個引用變量,這兩個操作之間不能重排序。
- 初次讀一個包含final域的對象的引用,與隨后初次讀這個final域,這兩個操作之間不能重排序。
下面,我們通過一些示例性的代碼來分別說明這兩個規則:
public class FinalExample { int i; //普通變量 final int j; //final變量 static FinalExample obj; public void FinalExample () { //構造函數 i = 1; //寫普通域 j = 2; //寫final域 } public static void writer () { //寫線程A執行 obj = new FinalExample (); } public static void reader () { //讀線程B執行 FinalExample object = obj; //讀對象引用 int a = object.i; //讀普通域 int b = object.j; //讀final域 } }
這里假設一個線程A執行writer ()方法,隨后另一個線程B執行reader ()方法。下面我們通過這兩個線程的交互來說明這兩個規則。
寫final域的重排序規則
寫final域的重排序規則禁止把final域的寫重排序到構造函數之外。這個規則的實現包含下面2個方面:
- JMM禁止編譯器把final域的寫重排序到構造函數之外。
- 編譯器會在final域的寫之后,構造函數return之前,插入一個StoreStore屏障。這個屏障禁止處理器把final域的寫重排序到構造函數之外。
現在讓我們分析writer ()方法。writer ()方法只包含一行代碼:finalExample = new FinalExample ()。這行代碼包含兩個步驟:
- 構造一個FinalExample類型的對象;
- 把這個對象的引用賦值給引用變量obj。
假設線程B讀對象引用與讀對象的成員域之間沒有重排序(馬上會說明為什么需要這個假設),下圖是一種可能的執行時序:
在上圖中,寫普通域的操作被編譯器重排序到了構造函數之外,讀線程B錯誤的讀取了普通變量i初始化之前的值。而寫final域的操作,被寫final域的重排序規則“限定”在了構造函數之內,讀線程B正確的讀取了final變量初始化之后的值。
寫final域的重排序規則可以確保:在對象引用為任意線程可見之前,對象的final域已經被正確初始化過了,而普通域不具有這個保障。以上圖為例,在讀線程B“看到”對象引用obj時,很可能obj對象還沒有構造完成(對普通域i的寫操作被重排序到構造函數外,此時初始值2還沒有寫入普通域i)。
讀final域的重排序規則
讀final域的重排序規則如下:
- 在一個線程中,初次讀對象引用與初次讀該對象包含的final域,JMM禁止處理器重排序這兩個操作(注意,這個規則僅僅針對處理器)。編譯器會在讀final域操作的前面插入一個LoadLoad屏障。
初次讀對象引用與初次讀該對象包含的final域,這兩個操作之間存在間接依賴關系。由於編譯器遵守間接依賴關系,因此編譯器不會重排序這兩個操作。大多數處理器也會遵守間接依賴,大多數處理器也不會重排序這兩個操作。但有少數處理器允許對存在間接依賴關系的操作做重排序(比如alpha處理器),這個規則就是專門用來針對這種處理器。
reader()方法包含三個操作:
- 初次讀引用變量obj;
- 初次讀引用變量obj指向對象的普通域j。
- 初次讀引用變量obj指向對象的final域i。
現在我們假設寫線程A沒有發生任何重排序,同時程序在不遵守間接依賴的處理器上執行,下面是一種可能的執行時序:
在上圖中,讀對象的普通域的操作被處理器重排序到讀對象引用之前。讀普通域時,該域還沒有被寫線程A寫入,這是一個錯誤的讀取操作。而讀final域的重排序規則會把讀對象final域的操作“限定”在讀對象引用之后,此時該final域已經被A線程初始化過了,這是一個正確的讀取操作。
讀final域的重排序規則可以確保:在讀一個對象的final域之前,一定會先讀包含這個final域的對象的引用。在這個示例程序中,如果該引用不為null,那么引用對象的final域一定已經被A線程初始化過了。
如果final域是引用類型
上面我們看到的final域是基礎數據類型,下面讓我們看看如果final域是引用類型,將會有什么效果?
請看下列示例代碼:
public class FinalReferenceExample { final int[] intArray; //final是引用類型 static FinalReferenceExample obj; public FinalReferenceExample () { //構造函數 intArray = new int[1]; //1 intArray[0] = 1; //2 } public static void writerOne () { //寫線程A執行 obj = new FinalReferenceExample (); //3 } public static void writerTwo () { //寫線程B執行 obj.intArray[0] = 2; //4 } public static void reader () { //讀線程C執行 if (obj != null) { //5 int temp1 = obj.intArray[0]; //6 } } }
這里final域為一個引用類型,它引用一個int型的數組對象。對於引用類型,寫final域的重排序規則對編譯器和處理器增加了如下約束:
- 在構造函數內對一個final引用的對象的成員域的寫入,與隨后在構造函數外把這個被構造對象的引用賦值給一個引用變量,這兩個操作之間不能重排序。
對上面的示例程序,我們假設首先線程A執行writerOne()方法,執行完后線程B執行writerTwo()方法,執行完后線程C執行reader ()方法。下面是一種可能的線程執行時序:
在上圖中,1是對final域的寫入,2是對這個final域引用的對象的成員域的寫入,3是把被構造的對象的引用賦值給某個引用變量。這里除了前面提到的1不能和3重排序外,2和3也不能重排序。
JMM可以確保讀線程C至少能看到寫線程A在構造函數中對final引用對象的成員域的寫入。即C至少能看到數組下標0的值為1。而寫線程B對數組元素的寫入,讀線程C可能看的到,也可能看不到。JMM不保證線程B的寫入對讀線程C可見,因為寫線程B和讀線程C之間存在數據競爭,此時的執行結果不可預知。
如果想要確保讀線程C看到寫線程B對數組元素的寫入,寫線程B和讀線程C之間需要使用同步原語(lock或volatile)來確保內存可見性。
為什么final引用不能從構造函數內“逸出”
前面我們提到過,寫final域的重排序規則可以確保:在引用變量為任意線程可見之前,該引用變量指向的對象的final域已經在構造函數中被正確初始化過了。其實要得到這個效果,還需要一個保證:在構造函數內部,不能讓這個被構造對象的引用為其他線程可見,也就是對象引用不能在構造函數中“逸出”。為了說明問題,讓我們來看下面示例代碼:
public class FinalReferenceEscapeExample { final int i; static FinalReferenceEscapeExample obj; public FinalReferenceEscapeExample () { i = 1; //1寫final域 obj = this; //2 this引用在此“逸出” } public static void writer() { new FinalReferenceEscapeExample (); } public static void reader { if (obj != null) { //3 int temp = obj.i; //4 } } }
假設一個線程A執行writer()方法,另一個線程B執行reader()方法。這里的操作2使得對象還未完成構造前就為線程B可見。即使這里的操作2是構造函數的最后一步,且即使在程序中操作2排在操作1后面,執行read()方法的線程仍然可能無法看到final域被初始化后的值,因為這里的操作1和操作2之間可能被重排序。實際的執行時序可能如下圖所示:
從上圖我們可以看出:在構造函數返回前,被構造對象的引用不能為其他線程可見,因為此時的final域可能還沒有被初始化。在構造函數返回后,任意線程都將保證能看到final域正確初始化之后的值。
final語義在處理器中的實現
現在我們以x86處理器為例,說明final語義在處理器中的具體實現。
上面我們提到,寫final域的重排序規則會要求譯編器在final域的寫之后,構造函數return之前,插入一個StoreStore障屏。讀final域的重排序規則要求編譯器在讀final域的操作前面插入一個LoadLoad屏障。
由於x86處理器不會對寫-寫操作做重排序,所以在x86處理器中,寫final域需要的StoreStore障屏會被省略掉。同樣,由於x86處理器不會對存在間接依賴關系的操作做重排序,所以在x86處理器中,讀final域需要的LoadLoad屏障也會被省略掉。也就是說在x86處理器中,final域的讀/寫不會插入任何內存屏障!
JSR-133為什么要增強final的語義
在舊的Java內存模型中 ,最嚴重的一個缺陷就是線程可能看到final域的值會改變。比如,一個線程當前看到一個整形final域的值為0(還未初始化之前的默認值),過一段時間之后這個線程再去讀這個final域的值時,卻發現值變為了1(被某個線程初始化之后的值)。最常見的例子就是在舊的Java內存模型中,String的值可能會改變(參考文獻2中有一個具體的例子,感興趣的讀者可以自行參考,這里就不贅述了)。
為了修補這個漏洞,JSR-133專家組增強了final的語義。通過為final域增加寫和讀重排序規則,可以為java程序員提供初始化安全保證:只要對象是正確構造的(被構造對象的引用在構造函數中沒有“逸出”),那么不需要使用同步(指lock和volatile的使用),就可以保證任意線程都能看到這個final域在構造函數中被初始化之后的值。
深入理解Java內存模型(七)——總結
處理器內存模型
順序一致性內存模型是一個理論參考模型,JMM和處理器內存模型在設計時通常會把順序一致性內存模型作為參照。JMM和處理器內存模型在設計時會對順序一致性模型做一些放松,因為如果完全按照順序一致性模型來實現處理器和JMM,那么很多的處理器和編譯器優化都要被禁止,這對執行性能將會有很大的影響。
根據對不同類型讀/寫操作組合的執行順序的放松,可以把常見處理器的內存模型划分為下面幾種類型:
- 放松程序中寫-讀操作的順序,由此產生了total store ordering內存模型(簡稱為TSO)。
- 在前面1的基礎上,繼續放松程序中寫-寫操作的順序,由此產生了partial store order 內存模型(簡稱為PSO)。
- 在前面1和2的基礎上,繼續放松程序中讀-寫和讀-讀操作的順序,由此產生了relaxed memory order內存模型(簡稱為RMO)和PowerPC內存模型。
注意,這里處理器對讀/寫操作的放松,是以兩個操作之間不存在數據依賴性為前提的(因為處理器要遵守as-if-serial語義,處理器不會對存在數據依賴性的兩個內存操作做重排序)。
下面的表格展示了常見處理器內存模型的細節特征:
內存模型名稱 |
對應的處理器 |
Store-Load 重排序 |
Store-Store重排序 |
Load-Load 和Load-Store重排序 |
可以更早讀取到其它處理器的寫 |
可以更早讀取到當前處理器的寫 |
TSO |
sparc-TSO X64 |
Y |
Y |
|||
PSO |
sparc-PSO |
Y |
Y |
Y |
||
RMO |
ia64 |
Y |
Y |
Y |
Y |
|
PowerPC |
PowerPC |
Y |
Y |
Y |
Y |
Y |
在這個表格中,我們可以看到所有處理器內存模型都允許寫-讀重排序,原因在第一章以說明過:它們都使用了寫緩存區,寫緩存區可能導致寫-讀操作重排序。同時,我們可以看到這些處理器內存模型都允許更早讀到當前處理器的寫,原因同樣是因為寫緩存區:由於寫緩存區僅對當前處理器可見,這個特性導致當前處理器可以比其他處理器先看到臨時保存在自己的寫緩存區中的寫。
上面表格中的各種處理器內存模型,從上到下,模型由強變弱。越是追求性能的處理器,內存模型設計的會越弱。因為這些處理器希望內存模型對它們的束縛越少越好,這樣它們就可以做盡可能多的優化來提高性能。
由於常見的處理器內存模型比JMM要弱,java編譯器在生成字節碼時,會在執行指令序列的適當位置插入內存屏障來限制處理器的重排序。同時,由於各種處理器內存模型的強弱並不相同,為了在不同的處理器平台向程序員展示一個一致的內存模型,JMM在不同的處理器中需要插入的內存屏障的數量和種類也不相同。下圖展示了JMM在不同處理器內存模型中需要插入的內存屏障的示意圖:
如上圖所示,JMM屏蔽了不同處理器內存模型的差異,它在不同的處理器平台之上為java程序員呈現了一個一致的內存模型。
JMM,處理器內存模型與順序一致性內存模型之間的關系
JMM是一個語言級的內存模型,處理器內存模型是硬件級的內存模型,順序一致性內存模型是一個理論參考模型。下面是語言內存模型,處理器內存模型和順序一致性內存模型的強弱對比示意圖:
從上圖我們可以看出:常見的4種處理器內存模型比常用的3中語言內存模型要弱,處理器內存模型和語言內存模型都比順序一致性內存模型要弱。同處理器內存模型一樣,越是追求執行性能的語言,內存模型設計的會越弱。
JMM的設計
從JMM設計者的角度來說,在設計JMM時,需要考慮兩個關鍵因素:
- 程序員對內存模型的使用。程序員希望內存模型易於理解,易於編程。程序員希望基於一個強內存模型來編寫代碼。
- 編譯器和處理器對內存模型的實現。編譯器和處理器希望內存模型對它們的束縛越少越好,這樣它們就可以做盡可能多的優化來提高性能。編譯器和處理器希望實現一個弱內存模型。
由於這兩個因素互相矛盾,所以JSR-133專家組在設計JMM時的核心目標就是找到一個好的平衡點:一方面要為程序員提供足夠強的內存可見性保證;另一方面,對編譯器和處理器的限制要盡可能的放松。下面讓我們看看JSR-133是如何實現這一目標的。
為了具體說明,請看前面提到過的計算圓面積的示例代碼:
double pi = 3.14; //A double r = 1.0; //B double area = pi * r * r; //C
上面計算圓的面積的示例代碼存在三個happens- before關系:
- A happens- before B;
- B happens- before C;
- A happens- before C;
由於A happens- before B,happens- before的定義會要求:A操作執行的結果要對B可見,且A操作的執行順序排在B操作之前。 但是從程序語義的角度來說,對A和B做重排序即不會改變程序的執行結果,也還能提高程序的執行性能(允許這種重排序減少了對編譯器和處理器優化的束縛)。也就是說,上面這3個happens- before關系中,雖然2和3是必需要的,但1是不必要的。因此,JMM把happens- before要求禁止的重排序分為了下面兩類:
- 會改變程序執行結果的重排序。
- 不會改變程序執行結果的重排序。
JMM對這兩種不同性質的重排序,采取了不同的策略:
- 對於會改變程序執行結果的重排序,JMM要求編譯器和處理器必須禁止這種重排序。
- 對於不會改變程序執行結果的重排序,JMM對編譯器和處理器不作要求(JMM允許這種重排序)。
下面是JMM的設計示意圖:
從上圖可以看出兩點:
- JMM向程序員提供的happens- before規則能滿足程序員的需求。JMM的happens- before規則不但簡單易懂,而且也向程序員提供了足夠強的內存可見性保證(有些內存可見性保證其實並不一定真實存在,比如上面的A happens- before B)。
- JMM對編譯器和處理器的束縛已經盡可能的少。從上面的分析我們可以看出,JMM其實是在遵循一個基本原則:只要不改變程序的執行結果(指的是單線程程序和正確同步的多線程程序),編譯器和處理器怎么優化都行。比如,如果編譯器經過細致的分析后,認定一個鎖只會被單個線程訪問,那么這個鎖可以被消除。再比如,如果編譯器經過細致的分析后,認定一個volatile變量僅僅只會被單個線程訪問,那么編譯器可以把這個volatile變量當作一個普通變量來對待。這些優化既不會改變程序的執行結果,又能提高程序的執行效率。
JMM的內存可見性保證
Java程序的內存可見性保證按程序類型可以分為下列三類:
- 單線程程序。單線程程序不會出現內存可見性問題。編譯器,runtime和處理器會共同確保單線程程序的執行結果與該程序在順序一致性模型中的執行結果相同。
- 正確同步的多線程程序。正確同步的多線程程序的執行將具有順序一致性(程序的執行結果與該程序在順序一致性內存模型中的執行結果相同)。這是JMM關注的重點,JMM通過限制編譯器和處理器的重排序來為程序員提供內存可見性保證。
- 未同步/未正確同步的多線程程序。JMM為它們提供了最小安全性保障:線程執行時讀取到的值,要么是之前某個線程寫入的值,要么是默認值(0,null,false)。
下圖展示了這三類程序在JMM中與在順序一致性內存模型中的執行結果的異同:
只要多線程程序是正確同步的,JMM保證該程序在任意的處理器平台上的執行結果,與該程序在順序一致性內存模型中的執行結果一致。
JSR-133對舊內存模型的修補
JSR-133對JDK5之前的舊內存模型的修補主要有兩個:
- 增強volatile的內存語義。舊內存模型允許volatile變量與普通變量重排序。JSR-133嚴格限制volatile變量與普通變量的重排序,使volatile的寫-讀和鎖的釋放-獲取具有相同的內存語義。
- 增強final的內存語義。在舊內存模型中,多次讀取同一個final變量的值可能會不相同。為此,JSR-133為final增加了兩個重排序規則。現在,final具有了初始化安全性。