菜鳥運維問:昨晚就改個配置重啟一下,怎么搞那么晚?
老鳥運維答:考慮方案半個小時,改配置1一分鍾,寫注釋5分鍾,寫文檔半個小時。
運維文檔的作用,相信大家都非常重視。運維工作與開發工作相較缺少了一些創造性和靈活性,因此運維文檔能夠更准確的記錄運維工作實施中的步驟,更穩定的將運維要注意的相關經驗進行記錄和傳播。
可實際上,不管是開發人員還是運維人員,真正願意寫文檔的運維人員非常少。往往到了重要運維人員要離職的時候,才發現原來什么文檔都沒有。就像是《鳳凰項目 - 一個IT運維傳奇故事》中的布倫特一樣,他總是像救火員一樣出現在問題處理的現場,可是他的經驗卻沒有有效的記錄和傳播。
本文的目的在於希望各位讀者讀完后,能夠圓滿的回答下面三個問題:
- 我所運維管理的系統該有的文檔都有了么?
- 我的運維文檔中記錄的操作都能正確執行么?
- 我的團隊的人都知道有些運維文檔么?
運維文檔都有哪些
上面是在工作中整理的一份思維導圖,將運維中可能用到的文檔羅列出來,下面對幾個比較重要的文檔簡要描述。
- 架構類的運維文檔主要是幫助運維人員從邏輯架構、物理架構、數據庫三方面了解系統的基本信息,文檔的數量並不重要,這些文檔可以合並成一個,重要在於文檔內容准確、全面。文檔中還要將系統各個組件的高可用機制、與周邊系統的關系、系統的業務用戶和業務范圍等等信息。運維人員掌握了這類文檔,對於系統的架構、用戶、業務種類就會有一個概括的認識。
- 操作類。這是實際工作中最重要的一類文檔,包括了維護手冊、應用預案、常見問題處理手冊,可能還包含有值班手冊,也可以將相關內容放在維護手冊中。維護手冊側重於介紹系統各個應用的詳細信息,包括安裝的路徑、起停腳本(這個一定要有)、日志的路徑、配置文件的路徑,還應當包含日常值班過程中所應該做的檢查和操作,對於常規的操作系統類的檢查,還應當重點關注業務運行情況的檢查,例如營業狀態、業務成功率、業務量等(當然這些指標也需要系統的支持)。應急預案側重於介紹應急處置措施和操作方法,包括應用起停、高可用切換的相關腳本和方法,預案編寫應注重詳實准確,並且要定期演練並維護。常見問題處理手冊側重於記錄系統日常運維過程中常見的問題和解決方法,是一類經常更新的運維文檔。
- 支持類。這屬於背景類知識,可能不屬於本系統運維人員產生,包括一些單位內部的操作系統規范、數據庫規范、中間件規范等規范類文章。不要小看規范,沒有規矩不成方圓,組織規模小的時候規范都在腦子里,組織成員增多之后,就必須形成明確的規范。
如何管理運維文檔
通常來講,我們的運維文檔往往都會以本地文檔、內部知識庫系統或在線文檔的形式進行維護,文檔質量的好壞往往在關鍵時刻才能體現出來,例如人員離職發生工作交接時、發生故障需要緊急處理時,為了避免臨陣慌亂,個人認為應當從以下三個方面改進:
- 明確文檔的模板和編寫標准。寫作業有作文的討論,寫運維文檔也有相關的套路和要求。因此在安排具體編寫文檔之前,我們必須明確文檔的模板和編寫標准。例如每次更新都要留下修訂記錄、需要提供目錄、優先用表格而不是圖表等等。只有這樣才能避免寫出來五花八門的運維文檔,每人都有自己的風格,減少文檔閱讀者的成本。
- 明確文檔維護的責任人。文檔的維護責任必須落實到人,而且還需要經常的要求相關責任人按期更新,因為大家對於寫文檔總是有一些惰性。
- 定期進行文檔的交叉審核與更新。周期可以安排在一個季度或雙月進行文檔的交叉審核和更新,原則上對於常見問題處理手冊,應當是遇到問題后立即更新。如果有條件,還應當安排一些定期的桌面演練,在系統上實際操作驗證文檔的可用性。