python采用"引用計數"和"垃圾回收"兩種機制來管理內存。引用計數通過記錄對象被引用的次數來管理對象。對對象的引用都會使得引用計數加1,移除對對象的引用,引用計數則會減1,當引用計數減為0時,對象所占的內存就會被釋放掉。引用計數可以高效的管理對象的分配和釋放,但是有一個缺點,就是無法釋放引用循環的對象。
最簡單的就是下面的自己引用自己的例子:
def make_cycle(): l = [ ] l.append(l) make_cycle()
垃圾回收機制會根據內存的分配和釋放情況的而被調用,比如分配內存的次數減去釋放內存的次數大於某一個閾值的時候。如下所示,我們可以通過gc對象來獲取閾值:
>>> gc.get_threshold()
(700, 10, 10)
當內存溢出時,不會自動調用garbage collection( gc ),因為gc更看重的是垃圾對象的個數, 而不是大小。對於長時間運行的程序,尤其是一些服務器應用,人為主動的調用gc是非常有必要的,如下代碼所示:
import sys, gc def make_cycle(): l = {} l[0] = l def main(): collected = gc.collect() print "Garbage collector: collected %d objects." % (collected) print "Creating cycles..." for i in range(10): make_cycle() collected = gc.collect() print "Garbage collector: collected %d objects." % (collected) if __name__ == "__main__": ret = main() sys.exit(ret)
調用gc的策略有兩種,一種是固定時間間隔進行調用,另一種是基於事件的調用。如1,用戶終止了對應用的訪問,2,明顯監測到應用進入到閑置的狀態,3,運行高性能服務前后,4,周期性、或階段性工作的前后。注意gc雖好,但也不能常用,畢竟還是會消耗一定的計算資源。
gc垃圾回收方法(尋找引用循環對象):
可以發現,只有容器對象才會出現引用循環,比如列表、字典、類、元組。首先,為了追蹤容器對象,需要每個容器對象維護兩個額外的指針,用來將容器對象組成一個鏈表,指針分別指向前后兩個容器對象,方便插入和刪除操作。其次,每個容器對象還得添加gc_refs字段。
一次gc垃圾回收步驟:
1,使得gc_refs等於容器對象的引用計數。
2,遍歷每個容器對象(a),找到它(a)所引用的其它容器對象(b),將那個容器對象(b)的gc_refs減去1。
3,將所有gc_refs大於0的容器對象(a)取出來,組成新的隊列,因為這些容器對象被容器對象隊列的外部所引用。
4,任何被新隊列里面的容器對象,所引用的容器對象(舊隊列中)也要加入到新隊列里面。
5,釋放舊隊列里面的剩下的容器對象。(釋放容器對象時,它所引用的對象的引用計數也要減1)
gc分代機制:
gc采用分代(generations)的方法來管理對象,總共分為三代(generation 0,1,2)。新產生的對象放到第0代里面。如果該對象在第0代的一次gc垃圾回收中活了下來,那么它就被放到第1代里面。如果第1代里面的對象在第1代的一次gc垃圾回收中活了下來,它就被放到第2代里面。
gc.set_threshold(threshold0[, threshold1[, threshold2]])
設置gc每一代垃圾回收所觸發的閾值。從上一次第0代gc后,如果分配對象的個數減去釋放對象的個數大於threshold0,那么就會對第0代中的對象進行gc垃圾回收檢查。從上一次第1代gc后,如過第0代被gc垃圾回收的次數大於threshold1,那么就會對第1代中的對象進行gc垃圾回收檢查。同樣,從上一次第2代gc后,如過第1代被gc垃圾回收的次數大於threshold2,那么就會對第2代中的對象進行gc垃圾回收檢查。如果threshold0設置為0,表示關閉分代機制。
最后的bug:__del__方法:
我們知道當引用計數變為0的時候,會先調用對象的__del__方法,然后再釋放對象。但是當一個引用循環中對象有__del__方法時,gc就不知道該以什么樣的順序來釋放環中對象。因為環中的a對象的__del__方法可能調用b對象,而b對象的__del__方法也有可能調用a對象。所以需要人為顯式的破環。
import gc class A(object): def __del__(self): print '__del__ in A' class B(object): def __del__(self): print '__del__ in B' class C(object): pass if __name__=='__main__': print 'collect: ',gc.collect() print 'garbage: ',gc.garbage a = A() b = B() c = C() a.cc = c c.bb = b b.aa = a del a,b,c print 'collect: ',gc.collect() print 'garbage: ',gc.garbage del gc.garbage[0].cc # 當然,這是在我們知道第一個對象是 a的情況下,手動破除引用循環中的環 del gc.garbage[:] # 消除garbage對a和b對象的引用,這樣引用計數減1等於0,就能回收a、b、c三個對象了 print 'garbage: ',gc.garbage print '----------------------------' print 'collect: ',gc.collect() print 'garbage: ',gc.garbage
如上所示:調用一次gc.collect(),首先檢查因為引用循環而不可達對象,如果一個引用循環中所有對象都不包含__del__方法,那么這個引用循環中的對象都將直接被釋放掉。否則,將引用循環中包含__del__方法的對象加入到gc.garbage列表中。(這時它們的引用計數也會加1,因此gc.collect()不會再對這個環進行處理)
用戶通過gc.garbage來獲取這些對象,手動消除引用,進行破環。最后消除gc.garbage對這些對象的引用,這時這些對象的引用計數減1等於0,就自動被回收了。否則由於gc.garbage對這些對象存在引用,這些對象將永遠不會被回收。
其他:
import weakref class Foo(object): pass a = Foo() a.bar = 123 a.bar2 = 123 del a del a.bar2 b = weakref.ref(a) print b().bar print a == b() c = weakref.proxy(a) print c.bar print c == a
del:只是使變量所代表的對象的引用計數減1,並在對應空間中刪除該變量名。
weak.ref:會返回a對象的引用,但是不會讓a對象的引用計數加1。但是每次都得通過b()來獲取a對象。
weak.proxy:相對於weakref.ref更透明的可選操作,即直接通過c就獲取a對象。
閉包空間的變量和自由變量的釋放問題:
class A(object): def __init__(self,name): self._name = name def __del__(self): print '__del__ in ',self._name def f1(): a = A('a') b = A('b') def f2(): c = A('c') print a return f2 if __name__=='__main__': print 'f2 = f1():' f2 = f1() print '\na.__closure__:' print f2.__closure__ # 查看f2的閉包里面引用了a對象 print '\na():' f2() print '\ndel f2:' del f2 # 此時已經沒有任何變量可以引用到返回的f2對象了。 print '\nover!'
參考博客:http://blog.csdn.net/u010138758/article/details/60466669,垃圾回收機制的詳解。
