06-垃圾回收理論


        本節為JVM垃圾收集的基礎理論,一個GC過程在邏輯上需要經過兩個步驟,即先判斷哪些對象是存活的、哪些對象是死亡的,然后對死亡的對象進行回收。

一、關於回收目標

        在前面我們已經了解到,JVM的內存模型划分為多個區域,由於不同區域的實現機制以及功能不同,那么各自的回收目標也不同。一般來說,內存回收主要涉及以下三個區域:
  • 虛擬機棧/本地方法棧:顧名思義,該部分內存以棧的形式作為實現,那么在進棧、出棧的時候內存會自動釋放,類似於C的“自動變量區域內存”;
  • 堆:內存回收主要目標,可以認為類似於C中的“動態內存分配區域”,只不過C通過malloc與free函數手動進行管理,而java通過GC進行自動管理;
  • 方法區:該區域回收效果很弱,虛擬機規范強制要求在這里進行回收。回收目標是常量池的回收和對類型的卸載;
 

二、方法區回收

        方法區的回收目標是回收常量池中的廢棄常量與類卸載。

2.1.常量回收

        若常量池中的某常量沒有任何地方引用或者使用,包括該常量不以字面量的形式被使用或引用,則可以被回收。

2.2.類卸載

        滿足以下條件的類可以被卸載:
  • 該類所有實例已被回收;
  • 該類的ClassLoader已被回收;
  • 該類的類型信息,即java.lang.Class沒有任何地方引用(一般為反射使用);
        可以看出,對於類的卸載,要求很苛刻。因此在大量使用反射、動態代理、CGLib等字節碼框架、動態生成jsp以及OSGI這類頻繁自定義ClassLoader功能的場景中,都要求JVM具備類卸載功能,以保證永久帶不溢出。
 

三、堆回收

3.1.對象存活判定

        關於堆中的對象存活判定,以標記為基礎,並配合其他步驟完成。

3.1.1.標記算法

(1)引用計數法
        即給對象添加一個引用計數器,每有一個地方進行引用,則計數器加1。當計數器為0的時候,表示該對象可回收。
        引用計數法未被JVM采用,原因是其無法解決對象間循環引用的問題,如下圖所示,當堆內的兩個對象循環引用,就算他們已經沒用了,也無法進行回收:
 
(2)可達性分析算法
        該算法的思想是將一系列被稱為“GC ROOTS”的對象作為起點(或稱根節點),向下搜索,所走過的路徑稱為“引用鏈(reference chain)”。若一個對象沒有可以到達GC ROOTS的路徑,則稱“該對象不可達”。對於不可達對象,會被標記為回收狀態。
        上圖中,順着GC ROOTS,Obj1、Obj2、Obj3和Obj4都是可以到達的,因此他們為存活對象;而Obj5不可到達,Obj6、Obj7即使存在指向它們的引用,但因無法到達GC ROOTS,因此為需要回收的對象。
   在可達性分析算法中,最重要的就是GC ROOTS。其本質是對象,但並非所有對象都有資格作為GC ROOTS,只有以下位置的才可以:
  • 棧上引用:虛擬機棧的棧幀中本地變量表內引用的對象;
  • 棧上引用:本地方法棧中JNI引用的對象;
  • 方法區:類靜態屬性引用的對象;
  • 方法區:類常量引用的對象;

3.1.2.死亡判定

        對象在經過標記之后,並不會馬上被回收,還要經過以下一系列階段才最終確定需要被回收:
  • 一次標記:即通過標記算法將對象標記為待回收狀態,並進入一個待回收對象集合;
  • 篩選:對一次標記之后的待回收對象進行過濾,如果該對象覆蓋了finalize方法,並且該方法未執行過,則將該對象放入F-QUEUE;反之,對象沒有覆蓋finalize方法或者finalize方法已經被執行過了,該對象不會進行任何處理;
  • F-QUEUE:一個隊列,JVM會通過一個Finalizer線程去執行這個隊列中對象的finalize方法,並且只保證該方法的執行,不保證該方法成功執行完成。因為若finalize方法有死循環,會造成FQUEUE后續未被執行對象的持續等待,導致整個內存回收系統崩潰。根據這個特點,對象可以在執行finalize方法時進行“自救”,所謂的自救,就是將對象重新與GC ROOTS相關聯;
  • 二次標記:GC會對FQUEUE中的對象進行額外的一次標記,若對象“自救”成功,則會從待回收對象集合中移除;若對象“自救”失敗,它仍然會處於待回收對象集合中,等待真正被回收;
  • 回收:對象通過垃圾收集進行回收,釋放內存空間;

3.2.垃圾收集算法

        在上一小節我們講了對象標記相關的算法,本小節來了解一下垃圾收集算法。

3.2.1.標記-清除算法

        標記-清除(mark-sweep)算法,是最基礎的垃圾收集算法,它的思想比較簡單,就是在“對象存活判定”標記出需要回收的對象后,統一回收(清除)這些對象的內存。
        該算法簡單有效,但是存在兩個不足:首先是效率問題,標記和清除兩個階段的效率都不高,所謂效率不高,並非指的是自身的執行效率,而是指回收結果與耗時的效益比不高;其次是空間問題,標記-清除算法並未整理內存,會產生大量不連續的內存碎片,要分配較大對象時,可能無法找到足夠的連續內存而不得不又觸發一次GC。

3.2.2.復制算法

        復制算法(copying)是對標記-清除算法的改進,其主要思想是將內存划分為不同的區域,包括“內存使用區”和“結果緩沖區”。每次只使用一部分內存,在該部分內存滿了之后,將仍然存活的對象復制到另外一塊區域上面,然后將之前使用過的內存區域全部清理掉, 現代商業虛擬機都采用其回收新生代
        該算法大大提高了回收效率,也可以避免內存碎片。然而帶來了新的問題:由於需要開辟一塊內存空間作為每次回收結果的緩沖,因此可用內存無法達到100%,“結果緩沖區”的大小決定了內存有效的比率。
        如何設置結果緩沖區的內存大小(比例)?將其設置為50%最能確保每次回收都有足夠大小的緩沖區域存放回收結果,畢竟最差的情況就是所有對象都存活,然而內存浪費也太高了。根據IBM的研究,一般情況下,新生代中的對象98%都是“朝生夕死”的,也就是說,每次存活對象的比例並不會太高,我們只需要設置一小塊內存作為“回收結果緩沖”即可,他們提出的解決模型如下,將內存划分為eden與2塊suvivor:
  • eden:主存儲區,新對象的創建都在這塊區域;
  • survivor:分為兩塊,一塊作為上次回收結果的“緩存”,一塊作為下一次回收的“緩存”區域;
        基於這種模型,每次回收時,將eden和上次回收結果的survivor中存活的對象復制進空閑的survivor,然后清理掉被回收的區域即可,簡單的示意流程圖見下:
        值得注意的是,對於eden-survivor模型,98%的對象可回收只是理想理論,在某些場景下,回收時存活對象的大小有可能大於空閑survivor。對於這種survivor空間大小不夠用的情況,需要通過“分配擔保”機制來保證對象能正確留存。所謂的分配擔保,就是不夠空間survivor存放的對象進入老年代。

3.2.3.標記-整理算法

        在上一小節我們知道復制算法主要適合於新生代的回收,對於老年代這種對象存活率高的區域,因為每次都會復制大量對象,成本收益比較低,使用復制算法明顯不合適;相反,標記-清除算法更適合老年代的特征,為了解決標記-清除算法的內存碎片問題,在此基礎上,優化為標記-整理算法(mark-compact)。
        標記-整理算法主要思想是在標記對象后,將存活對象向內存的一端移動,然后清理掉端邊界以外的內存,所謂的整理也可以理解為壓縮。

3.2.4.總結

        沒有哪一種垃圾收集算法能夠適用於所有情況,對於不同的堆內存區域(新生代、老年代),需要根據實際的對象特征,選擇合適的算法。
算法 優點 缺點 適用區域
復制 效率較高,無內存碎片問題 1.內存利用率達不到100%;2.需要分配擔保機制確保對象存活率較高時的內存分配; 新生代(對象存活率低,復制成本低)
標記-清除 簡單有效 1.效率不高;2.有內存碎片問題; 老年代(對象存活率高,無額外空間進行分配擔保)
標記-整理 標記-清除的改良,解決了內存碎片問題 1.同樣存在效率問題;2.整理過程需要額外的時間開銷;
 
   
 
 
 
 
 
 
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM