預習知識:python之MRO和垃圾回收機制
一、內存泄漏
像Java程序一樣,雖然Python本身也有垃圾回收的功能,但是同樣也會產生內存泄漏的問題。
對於一個用 python 實現的,長期運行的后台服務進程來說,如果內存持續增長,那么很可能是有了“內存泄露”。
1、內存泄露的原因
對於 python 這種支持垃圾回收的語言來說,怎么還會有內存泄露? 概括來說,有以下三種原因:
- 所用到的用 C 語言開發的底層模塊中出現了內存泄露。
- 代碼中用到了全局的 list、 dict 或其它容器,不停的往這些容器中插入對象,而忘記了在使用完之后進行刪除回收
- 代碼中有“引用循環”,並且被循環引用的對象定義了__del__方法,就會發生內存泄露。
為什么循環引用的對象定義了__del__方法后collect就不起作用了呢?
gc模塊最常使用的方法就是gc.collect()方法,使用collect方法對循環引用的對象進行垃圾回收。
如果我們在類中重載了__del__方法。__del__方法定義了在用del語句刪除對象時除了釋放內存空間以外的操作。
一般而言,在使用了del語句的時候解釋器首先會看要刪除對象的引用計數,如果為0,那么就釋放內存並執行del方法。
在這里,首先del語句出現時本身引用計數就不為0(因為有循環引用的存在),所以解釋器不釋放內存;
再者,執行collect方法時應該會清除循環引用所產生的無效引用計數從而達到del的目的,對於這兩個循環引用對象而言,
python無法判斷調用它們的del方法時會不會要用到對方那個對象,比如在進行b.del()時可能會用到b._a也就是a,如果在那之前a已經被釋放,那么就徹底GG了。
為了避免這種情況,collect方法默認不對重載了del方法的循環引用對象進行回收,而它們倆的狀態也會從unreachable轉變為uncollectable。由於是uncollectable的,自然就不會被collect處理,所以就進入了garbage列表。
也就是說:
如果循環引用中,兩個對象都定義了__del__方法,gc模塊不會銷毀這兩個不可達對象,
因為gc模塊不知道應該先調用哪個對象的__del__方法
比如,兩個對象a和b,如果先銷毀a,再銷毀b時,如果此時b.__del__方法中使用了a,那么這時會造成異常,
所以為了安全起見,gc模塊會把這種重構了__del__的循環引用對象放到gc.garbage中,並把它們的狀態從unreachable(不可達)轉變為uncollectable(不可收集)
要解決這種情況造成內存泄漏的話,只能顯式調用其中某個對象的__del__方法。
2、內存泄露的診斷思路
無論是哪種方式的內存泄露,最終表現的形式都是某些 python 對象在不停的增長;因此,首先是要找到這些異常的對象。
3、診斷步驟
用到的工具: gc 模塊和 objgraph 模塊
gc模塊 是Python的垃圾收集器模塊,gc使用標記清除算法回收垃圾
objgraph 是一個用於診斷內存問題的工具
1、 在服務程序的循環邏輯中,選擇出一個診斷點
2、 在診斷點,插入如下診斷語句
import gc import objgraph ### 強制進行垃圾回收 gc.collect() ### 打印出對象數目最多的 50 個類型信息 objgraph.show_most_common_types(limit=50)
4、檢查統計信息,找到異常對象
運行加入診斷語句的服務程序,並將打印到屏幕上的統計信息重定向到日志中。運行一段時間后,就可以來分析日志,看看哪些對象在不停的增長。
比如,排查結果可能是:
一個多線程程序,多個線程作為生產者,一個線程作為消費者,通過將一個 tuple 對象送入異步隊列進行通信。
由於消費者的處理速度跟不上生產者的速度,又沒有進行同步, 導致異步隊列中的對象越來越多。
二、內存溢出
1、內存溢出原因
- 內存中加載的數據量過於龐大,如一次從數據庫取出過多數據
- 集合類中有對對象的引用,使用完后未清空,產生了堆積,使得JVM不能回收
- 代碼中存在死循環或循環產生過多重復的對象實體
- 使用的第三方軟件中的BUG
- 啟動參數內存值設定的過小
2、內存溢出的解決方案
第一步,修改JVM啟動參數,直接增加內存(-Xms,-Xmx參數一定不要忘記加)
第二步,檢查錯誤日志,查看“OutOfMemory”錯誤前是否有其 它異常或錯誤
第三步,對代碼進行走查和分析,找出可能發生內存溢出的位置
重點排查以下幾點:
- 檢查對數據庫查詢中,是否有一次獲得全部數據的查詢。一般來說,如果一次取十萬條記錄到內存,就可能引起內存溢出。這個問題比較隱蔽,在上線前,數據庫中數據較少,不容易出問題,上線后,數據庫中數據多了,一次查詢就有可能引起內存溢出。因此對於數據庫查詢盡量采用分頁的方式查詢。
- 檢查代碼中是否有死循環或遞歸調用。
- 檢查是否有大循環重復產生新對象實體。
- 檢查List、MAP等集合對象是否有使用完后,未清除的問題。List、MAP等集合對象會始終存有對對象的引用,使得這些對象不能被GC回收。
第四步,使用內存查看工具動態查看內存使用情況
三、內存泄漏和內存溢出的區別
內存溢出是指向JVM申請內存空間時沒有足夠的可用內存了,就會拋出OOM即內存溢出。
內存泄漏是指,向JVM申請了一塊內存空間,使用完后沒有釋放,由於沒有釋放,這塊內存區域其他類加載的時候無法申請,
同時當前類又沒有這塊內存空間的內存地址了也無法使用,相當於丟了一塊內存,這就是內存泄漏。
值得注意的是內存泄漏最終會導致內存溢出,很好理解,內存丟了很多最后當然內存不夠用了。