運維標准化與流程化建設深度指南(轉)


當下企業很多都熱衷於建設運維自動化、智能化,通過技術革新代替繁雜的手工運維,提高生產效率的同時最大程度的減少人為失誤。但是如何建設自動化運維,在不同的企業有着不同的建設方法和技術棧,雖然大多是以Python為主。一般說來,企業的運維發展由起步到成熟,大致要經過三個大階段:運維無序化、運維標准化和流程化、運維自動化。

運維無序化主要表現在運維工作無規范統一,更多是團隊成員依賴自身技術各自為戰,着重於眼前運維工作,過多處於被迫接受和疲憊應付工作的狀態。運維無序階段提升工作效率主要依賴加人和加班,而且此階段運維工作效率低下,人為失誤較多,故障排除難度較大。長時間的運維無序化,對內團隊成員極度疲憊和不自信,對外主要表現為不再被各業務部門和其他IT兄弟團隊所信任。一般創業初期的IT運維處於無序化較多,如何解決結束無序化的苦惱,解放生產力呢?答案更多被提及的是運維自動化。然而面對眾說紛紜的運維自動化平台,如何結合自身條件進行落地實現呢?答案很多,有購買商業產品(價格真的不便宜),有自主研發,結合本人推行運維自動化的實際經驗提醒各位,不管哪種方式,運維標准化和流程化一定是首先要做的,否則運維自動化只能是空中樓閣,欲求不得。

什么是運維標准化和流程化呢?如果非要給出定義的話,那么我的定義是兩個字:文檔。

運維的標准化和流程化首先要以文檔的形式進行展示,並且能夠指導日常運維工作。國有國法,家有家規,冰箱洗衣機都有說明書,運維標准化流程化就是運維工作的國法家規,運維工作如何進行的說明書。相比開發、測試等其他崗位,運維工作直面生產環境,每一步運維操作與生產系統能否正常運行息息相關,稍有不慎就易產生生產事故。並且運維自動化的落地實施也是要基於運維的標准化和流程化,所以作為運維管理的第一步,不可忽略。

標准化和流程化的建設思路一般是包括三大部分:日常工作梳理、標准化和流程化制定、日常工作標准化和流程化執行。

一、運維工作梳理

 運維工作相對比較繁雜,結合實際運維工作,不同的公司又不同的划分方法,以某公司為例,大致分為數據中心(DC)運維、IT資源運維、服務運維、事件管理四個部分。 

 

  • 數據中心運維主要因為有自建IDC機房和部分托管在其他IDC機房的服務器,所以日常運維工作中有關於數據中心相關的工作,例如數據中心的設計和建設工作,數據中心日常巡檢,數據中心權限管理、備件梳理管理、設備上下架等管理。如果是部署在雲端的企業,對於數據中心的運維工作會少一些。
  • IT資源運維主要是指計算、存儲、網絡和安全四大基礎資源的運維工作。計算資源包括物理服務器的管理,如開關機、配置修改、資源增加等;存儲資源管理一般包括自建分部署存儲、商業存儲、NAS等相關存儲資源的賬戶權限管理、容量管理、監控等;網絡資源運維管理工作主要包括網絡權限管理、設備配置變更等等;安全資源運維管理主要日常與安全相關的規章制度和策略以及安全設備具體操作等。IT資源運維工作涉及日常運維工作基礎資源,是整個運維工作的重點,基礎資源的保障好壞,關系着上層應用服務的健康運行情況。
  •  系統運維的日常大多是與服務運維相關。運維服務部署(如:Nginx部署、JDK、Tomcat的部署等)、服務的配置變更和服務發布、服務變更等。服務運維設計的標准和規范指導日常服務運維工作的進行,並且為自動化運維做鋪墊,這要求在日常運維工作中,對於重復的手工運維工作盡量通過腳本或是其他變成語言實現自動化。
  • 事件管理針對日常運維工作中出現的運維事件進行處理指導和提出管理方案。主要包括對事件進行分類、事件處理流程、如何匯報事件以及事件的總結等。

通過對日常運維工作所涉及的內容進行分類整理,並且加工提煉最后形成運維的標准和規范,將一些流程化的工作進行固化,並且逐步實現運維自動化,提高運維效率。

二、運維標准化流程化文檔

通過上一節對運維工作進行梳理,接下來進行運維標准護額和流程化文檔的提煉。當然所做這一切都是基於公司自身的實際情況進行,切勿脫離實際,直接摘抄。另外一點,在制定運維標准流程之前,必須制定好文檔編寫得規范和標准,這樣整體的規范流程文檔的風格統一整齊。一般來講,文檔要盡量簡潔,設計流程相關要圖文並茂,着重對流程圖的流程說明和關鍵點備注。

數據中心運維標准化和流程化

首先是數據中心運維相關標准流程規范。數據中心的建立在國內網以及不同行業都有相對比較同意的規范標准可供參考設置。一般對於自建數據中心的企業,對於數據中心的標准建立參考遵循國際標准、國家標准和行業規定即可。如《GB50174-2017 數據中心設計規范》、《GB 50462-2015 數據中心基礎設施施工及驗收規范》、TIA-942 標准等。建立完成之后,還涉及到日常運維巡檢流程、對數據中心的備件管理中的備件申請流程、數據中心故障處理流程及其數據中心日常管理規范等。

 

一級類目

二級類目

標准規范名稱

備注

數據中心運維

 

數據中心設計標准規范

國家標准、國際標准、行業標准等

 

數據中心巡檢流程

 
 

數據中心備件申請流程

 
 

數據中心故障處理流程

 
 

數據中心管理規范

 

 

IT資源運維標准化和流程化

IT資源運維主要對涵蓋系統基礎設施的計算、存儲、網絡、安全四個基礎部分的運維其中着重偏向於硬件以及硬件配置相關運維工作。這其中涉及的規范和流程如下:

 

一級類目

二級類目

標准規范名稱

備注

IT資源運維

計算資源

物理服務器申請流程

申請、評估、審核、采購、驗收

物理服務器上架流程

布線、上架、安裝操作系統

操作系統安裝標准規范

 

物理服務器配置變更流程

申請、評估、審核、變更

物理服務器到期處理流程

自動觸發申請、評估、遷移、驗證、進入報廢流程

物理服務器報廢流程

申請、驗證、審核、利舊建議、關機、進入下架流程

物理服務器下架流程

關機后15日、斷電、下架、利舊、銷毀

虛擬機/容器化申請流程

 

虛擬機/容器安裝標准規范

 

虛擬機/容器配置變更流程

 

虛擬機/容器刪除流程

 

網絡資源

網絡設備申請流程

 

網絡設備上架流程

 

網絡配置變更流程

 

網絡設備報廢流程

 

網絡設備下架流程

 

安全資源

安全設備申請流程

 

安全設備上架流程

 

安全設備配置變更流程

配置升級、擴容、端口開通、訪問控制、策略修改

安全設備報廢流程

 

安全設備下架流程

 

存儲資源

存儲設備申請流程

 

存儲設備上架流程

 

存儲設備配置變更流程

包括硬盤添加、更換,容量擴容

存儲設備報廢流程

 

存儲設備下架流程

 

 

服務運維標准化和流程化

對於日常運維服務相關的標准化和流程化主要是標准化部署、配置以及流程化的處理如發布、變更等,這其中還包括數據庫的數據處理流程、生產賬號管理流程、以及備份和監控的標准規范等。

 

一級類目

二級類目

標准規范名稱

備注

服務運維

 

運維服務申請流程

 

Nginx安裝標准規范

安裝、優化配置、安全加固、備份、監控、日志備份=>腳本(包括高可用和負載均衡集群部署)

Haproxy安裝標准規范

安裝、優化配置、安全加固、備份、監控、日志備份=>腳本(包括高可用和負載均衡集群部署)

Apache安裝標准規范

安裝、優化配置、安全加固、備份、監控、日志備份=>腳本(包括高可用和負載均衡集群部署)

JDK安裝標准規范

適合只部署JDK的情況,如果申請Tomcat等依賴JDK的應用,不需要單獨申請JDK安全

Tomcat安裝標准規范

安裝、優化配置、安全加固、備份、監控、日志備份=>腳本

Weblogic安裝標准規范

安裝、優化配置、安全加固、備份、監控、日志備份=>腳本

MQ安全標准規范

ActiveMQ、RabbitMQ 安裝、優化配置、安全加固、備份、監控、日志備份=>腳本

Redis安裝標准規范

安裝、優化配置、安全加固、備份、監控、日志備份=>腳本

MongoDB安裝標准規范

安裝、優化配置、安全加固、備份、監控、日志備份=>腳本

大數據平台安裝部署標准規范

大數據生態圈組件安裝標准規范

Oracle安裝標准規范

單機、DG、RAC、OGG同步

Mysql安全標准規范

單機、主備、MHA、DB中間件

運維服務發布流程

 

運維服務變更流程

 

運維服務刪除流程

 

數據手工處理流程

 

信息風險源管理流程

 

生產系統測試賬號管理流程

 

生產系統管理賬戶管理流程

 

備份管理規范

備份對象、備份時間、備份頻次、備份耗時、備份驗證、備份監控

監控管理規范

 

 

事件管理標准化和流程化

針對日常運維過程中出現的事件進行規范化和流程化管理與指導,使工程師在處理運維事件的時候有章可循,以達到事件通知上通下達、規范化處理、快速高效處理的目的。

 

一級類目

二級類目

標准規范名稱

備注

事件管理

 

運維事件分類規范

 

運維事件處理流程

故障處理、安全事件處理

運維事件通報流程

 

運維事件處理規范

 

重保運維管理規范

 

 

三、標准流程化執行落地

通過運維工作梳理,進行運維標准化、流程化文檔的編寫之后,接下來就是最重要的落地執行。有了規范標准和流程,那么在日常運維工作中就不應該出現隨心所欲、按照自己習慣進行運維工作的現象。

其實在標准化和流程化落地的初始階段,往往會給工程師帶來各種不方便和諸多不適應。典型的例子如下:標准化、流程化給工程師帶來的感覺是事情變得復雜繁瑣,自己的手腳被束縛,本來很簡單的一個事情,幾條命令幾秒鍾就可以搞定,但在執行標准化和流程化之后,變得需要涉及多人或崗位,同時也需要幾十分鍾甚至幾個小時才能搞定,而最后實際操作的可能也就一開始的那幾條命令。這是標准化初期的普遍現象,對於出現這種問題要積極溝通解決,讓工程師們盡快度過這種看似繁瑣、效率低下的初期階段。解決方法有三:

  • 首先是對工程師以及流程干系人進行標准化和流程化意義的普及。讓大家了解知道進行標准化和流程化的意義,標准和流程得進行運維工作,可以大大減少人為失誤,同時讓大家在同一標准下工作,減少交流成本,相互之間的配合也會更加緊密。團隊協作流程化處理問題最大程度的減少相互之間的影響。最后,標准化和流程化是最運維自動化最基礎准備。
  • 加快運維自動化的建立。盡快將固化的標准和流程進行自動化的編碼開發,大大減少人為操作,提高運維效率,這樣運維工程師的日常工作因為大大減少人工操作,較以往會更加輕松。
  • 優化標准化和流程化。標准化和流程化的制定是基於實際的日常運維工作的,在實際執行過程中,應該根據實際情況,進行不斷的優化調整,以達到最優。

通過以上三步,減少工程師在執行運維標准化、流程化的煩惱,讓大家積極參與進來,推動標准和流程的實施,以快速實現運維的自動化。

標准化和流程化的落地,往往還會伴隨着對已存在的系統部署方式進行遷移至標准化的操作。這其實要求我們在執行標准化和流程化以后的所有運維操作完全按照運維的標准和流程進行,對於執行以前的運維工作要進行遷移,目的是要實現所有系統和運維的標准、流程化。對於遷移,一般比較好的方案是:首先保留已存在非標准化系統,同時搭建標准化環境,進行已存在系統的部署並進行測試,測試無誤后,與已存在非標准化系統並行運行,同時提供對外服務一段時間后,在評估,最后將已存在非標准化系統進行下線,以達到系統平滑得由非標准化遷移至標准化的目的。 

四、總結

標准化和流程化作為運維管理體系的基石和運維自動化的第一步,在進行運維管理工作中必不可少,而且要實現徹底的標准統一。在進行落地的過程中,要適當的與運維自動化並行,加快自動化的腳步,只有這樣才能最大程度的減少人為失誤,減少人力成本,提高運維的效率和質量。

本文轉自


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM