【Ceph運維】crash 模塊
目錄
一、介紹
ceph 的 crash模塊用來收集守護進程出現 crashdumps (崩潰)的信息,並將其存儲在ceph集群中,以供以后分析。
默認信息是保存在/var/lib/ceph/crash/posted 中,可以通過"crash dir" 變量來改變保存路徑。這個模塊允許將元數據保存在monitors的存儲中。具體現象如下:

mgr/crash/warn_recent_interval[default: 2 weeks] controls what constitutes “recent” for the purposes of raising theRECENT_CRASHhealth warning.新產生的crash 信息會提示多久,默認是兩周;改warinning會在ceph -s的時間顯示兩周。這個值可以被修改
mgr/crash/retain_interval[default: 1 year] controls how long crash reports are retained by the cluster before they are automatically purged.系統保存crash時間,默認是1年,才會自動清除。這個值可以被修改
二、相關操作
1、開啟關閉crash模塊
ceph mgr module enable crash
2、保存一個crash 信息
ceph crash post -i <metafile>
3、列出所有的crash 的時間戳和id,並存檔crash 信息
ceph crash ls
4、列出新的crash 的時間戳和id
ceph crash ls-new
5、顯示一個crash 的詳細信息
ceph crash info <crashid>
6、列出crash信息的匯總結果
ceph crash stat
7、清楚超過保留天數(keep )的crash記錄。keep 必須為整數
ceph crash prune <keep>
8、刪除一個指定crash 信息
ceph rm <crashid>
9、保存一個新產生的指定的crash 記錄
ceph crash archive <crashid>
10、保存所有新的產生的crash記錄
ceph crash archive-all
