前序:
由於公司業務需求,對於3個月前的過期數據需要進行刪除動作,以釋放空間和方便維護
本來想的是使用crontab寫個腳本定時執行,但是看到Mongo本身就有自動刪除過期數據的功能,所以還是用一下吧
這個方法就是使用TTL索引,后續我再寫一個腳本定時刪除的任務
介紹:
TTL索引是MongoDB中一種特殊的索引, 可以支持文檔在一定時間之后自動過期刪除,目前TTL索引只能在單字段上建立,
並且字段類型必須是date類型或者包含有date類型的數組(如果數組中包含多個date類型字段,則取最早時間為過期時間)
機制:
當你在集合中某一個字段建立TTL索引后,后台會有一個單線程,通過不斷查詢(默認60s一次)索引的值來判斷document是否有過期,
並且刪除文檔的動作還依據mongod實例的負載情況,如果負載很高,可能會稍微延后一段時間再刪除。
還有一個需要注意的地方,在復制集成員中,TTL后台線程只刪除primary的過期數據,如果此實例變為secondary角色,則后台線程閑置
創建TTL索引方法:
和普通索引的創建方法一樣,只是會多加一個屬性而已
例:在log_events的集合中,createTime 字段上建立一小時后過期的TTL索引
修改TTL索引的expireAfterSeconds屬性值:
注:如果想更改過期時間expireAfterSeconds,可以使用collMod方法,要不然你只能只用dropIndex(),createIndex()方法重建索引了,我想這樣的方法在億級數據量下是很頭疼的
雖然上面的方法可以實現自動過期刪除,但是如果白天業務很忙,頻繁的刪除數據勢必會增加負載,所以我想着晚上定時刪除過期數據(如果晚上業務量少的話)
方法如下:
增加一個expireTime字段(用於指定過期時間),expireAfterSeconds屬性值設置為0,
注:上面的createTime字段就不需要再有TTL索引了,這個expireTime的時間就需要在插入時指定上
這樣我們就實現了,指定時間自動刪除的動作了
限制條件:
有一下集中情況是無法使用TTL索引的
①TTL索引是單字段索引,混合索引不支持TTL,並且也會忽略expireAfterSeconds屬性
②在_id 主鍵上不能建立TTL索引
③在capped collection中不能建立TTL索引,因為MongoDB不能從capped collection中刪除文檔
④你不能使用createIndex()去更改已經存在的TTL索引的expireAfterSeconds值,如果想更改expireAfterSeconds,可以使用collMod命令,
否則你只能刪除索引,然后重建了
⑤你不能在已有索引的字段上再創建TTL索引了,如果你想把非TTL索引改為TTL索引,那就只能刪除重建索引了
驗證:
雖然已經實現了晚上集中自動刪除的功能,但是還是擔心刪除過大數量時負荷問題,隨進行了簡單測試,一查看TTL索引在億級別集合中刪除140萬過期數據的消耗
測試配置:
OS:Vm虛擬機
CPU: 4
內存:8
集合數據量:
> db.t1.count()
104273617
因為我制造測試數據時,_id是順序增加的,所以我直接查看_id=1500000的那筆數據的createTime,然后自己計算一下此createTime和當前時間的時間差,
隨后根據這個時間差來更改expireAfterSeconds的值,以讓這150萬數據5分鍾后過期並刪除。
在修改完expireAfterSeconds后,就嚴密延時“ vmstat 1 ” 命令的輸出數據;
我的測試結果:
刪除操作整個過程在90秒左右完成;
CPU最高占用90%,平均在50%
內存占用3G
這個也是特別准確的模擬情況,只是粗略的了解一下TTL索引的資源消耗,以決定是不是需要這樣的方式來實現刪除過期數據
監控vmstat的截圖:
