Python的內存管理機制(垃圾回收)


內存管理器

  Python 作為一個高層次的結合了解釋性、編譯性、互動性和面向對象的腳本語言,與大多數編程語言不同,Python 中的變量無需事先申明,變量無需指定類型,程序員無需關心內存管理,Python 解釋器給你自動回收。開發人員不用過多的關心內存管理機制,這一切全部由 Python 內存管理器承擔了復雜的內存管理工作。

 

Python內存池

為什么要引入內存池

  當創建大量消耗小內存的對象時,頻繁調用 new/malloc 會導致大量的內存碎片,致使效率降低。

  內存池的作用就是預先在內存中申請一定數量的,大小相等的內存塊留作備用,當有新的內存需求時,就先從內存池中分配內存給這個需求,不夠之后再申請新的內存。這樣做最顯著的優勢就是能夠減少內存碎片,提升效率。

Python 中的內存管理機制為 Pymalloc

 

內存池是如何工作的(how)

CPython(Python 解釋器)的內存架構圖:

 

 

 

  • python 的對象管理主要位於 Level+1~Level+3 層

  • Level+3層:對於 python 內置的對象(比如 int,dict 等)都有獨立的私有內存池,對象之間的內存池不共享,即int釋放的內存,不會被分配給float使用

  • Level+2層:當申請的內存大小小於 256 KB 時,內存分配主要由 Python 對象分配器(Python’s object allocator)實施

  • Level+1層:當申請的內存大小大於 256 KB 時,由Python原生的內存分配器進行分配,本質上是調用 C 標准庫中的 malloc/realloc 等函數

關於釋放內存方面,當一個對象的引用計數變為 0 時,Python 就會調用它的析構函數。調用析構函數並不意味着最終一定會調用 free 來釋放內存空間,如果真是這樣的話,那頻繁地申請、釋放內存空間會使Python的執行效率大打折扣。因此在析構時也采用了內存池機制,從內存池申請到的內存會被歸還到內存池中,以避免頻繁地申請和釋放動作。

 

垃圾回收機制

  Python 的垃圾回收機制采用引用計數機制為主,標記-清除分代回收機制為輔的策略。其中,標記-清除機制用來解決計數引用帶來的循環引用而無法釋放內存的問題,分代回收機制是為提升垃圾回收的效率。

引用計數

  Python 通過引用計數來保存內存中的變量追蹤,即記錄該對象被其他使用的對象引用的次數。

  Python 中有個內部跟蹤變量叫做引用計數器,每個變量有多少個引用,簡稱引用計數。當某個對象的引用計數為 0 時,就列入了垃圾回收隊列。

  • 引用計數增加的情況

  1. 一個對象被分配給一個新的名字(例如:a=[1,2])

  2. 將其放入一個容器中(如列表、元組或字典)(例如:c.append(a))

  • 引用計數減少的情況:

  1. 使用 del 語句對對象別名顯式的銷毀(例如:del b)

  2. 對象所在的容器被銷毀或從容器中刪除對象(例如:del c )

  3. 引用超出作用域或被重新賦值(例如:a=[3,4])

引用計數能夠解決大多數垃圾回收的問題,但是遇到兩個對象相互引用的情況,del 語句可以減少引用次數,但是引用計數不會歸 0,對象也就不會被銷毀,從而造成了內存泄漏問題。針對該情況,Python引入了標記-清除機制

 

標記-清除

  標記-清除用來解決引用計數機制產生的循環引用,進而導致內存泄漏的問題 。循環引用只有在容器對象才會產生,比如字典,元組,列表等。

顧名思義,該機制在進行垃圾回收時分成了兩步,分別是:

  • 標記階段,遍歷所有的對象,如果是可達的(reachable),也就是還有對象引用它,那么就標記該對象為可達

  • 清除階段,再次遍歷對象,如果發現某個對象沒有標記為可達(即為Unreachable),則就將其回收

 

具體栗子

  • a引用b,b引用a,此時兩個對象各自被引用了2次(去除getrefcout()的臨時引用)

     

  • 執行del之后,對象a,b的引用次數都-1,此時各自的引用計數器都為1,陷入循環引用

     

  • 標記:找到其中的一端a,因為它有一個對b的引用,則將b的引用計數-1

     

  • 標記:再沿着引用到b,b有一個a的引用,將a的引用計數-1,此時對象a和b的引用次數全部為0,被標記為不可達(Unreachable)

     

     

  • 清除: 被標記為不可達的對象就是真正需要被釋放的對象

上面描述的垃圾回收的階段,會暫停整個應用程序,等待標記清除結束后才會恢復應用程序的運行。為了減少應用程序暫停的時間,Python 通過“分代回收”(Generational Collection)以空間換時間的方法提高垃圾回收效率。

 

分代回收

  對於程序,存在一定比例的內存塊的生存周期比較短;而剩下的內存塊,生存周期會比較長,甚至會從程序開始一直持續到程序結束。生存期較短對象的比例通常在 80%~90%之間。因此,簡單地認為:對象存在時間越長,越可能不是垃圾,應該越少去收集。這樣在執行標記-清除算法時可以有效減小遍歷的對象數,從而提高垃圾回收的速度,是一種以空間換時間的方法策略

  Python 將所有的對象分為年輕代(第0代)、中年代(第1代)、老年代(第2代)三代。所有的新建對象默認是 第0代對象。當在第0代的gc掃描中存活下來的對象將被移至第1代,在第1代的gc掃描中存活下來的對象將被移至第2代。當某一代中被分配的對象與被釋放的對象之差達到某一閾值時,就會觸發當前一代的gc掃描。當某一代被掃描時,比它年輕的一代也會被掃描,因此,第2代的gc掃描發生時,第0,1代的gc掃描也會發生,即為全代掃描。

gc掃描次數(第0代>第1代>第2代)

 

總結

  總體而言,python 通過內存池來減少內存碎片化,提高執行效率。主要通過引用計數來完成垃圾回收,通過標記-清除解決容器對象循環引用造成的問題,通過分代回收提高垃圾回收的效率。

 

 

 

參考:https://mp.weixin.qq.com/s/PGfpBKyzaRkKPYEI72c-Nw

                      

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM