哪種監控工具才是運維人的最愛?


哪種監控工具才是運維人的最愛?

 

那些指標需要監控?我能監控到什么?能監控到何種程度?或許這些問題連你自己都難說清楚。先看看運維兄弟們的現狀。

 

1.運維現狀

傳統企業的計算機運維是在用戶使用計算機過程中發現故障之后,通知運維人員,再由運維人員采取相應的補救措施。運維人員日常大部分時間和精力都花在處理簡單且重復的問題上,而且由於故障預警機制不完善,往往是故障發生后才會進行處理,這種情況使運維人員的工作經常處於被動“救火”狀態,這種被動的運維模式讓IT部門疲憊不堪。運維質量如何提高?生產部門能對運維部有滿意的評價嗎?

目前我們在運維管理過程中缺少明確的角色定義和責任划分,以及自動化的集成運維管理平台,以至於問題出現后很難快速、准確地找到原因,而且在處理故障之后也缺乏必要的跟蹤與記錄。

2.隱藏在流量背后的秘密

網絡接口的通端,流量的大小,已滿足不了目前運維故障排除的需要。我們需要將流量分析的更深入,更細致。

wKioL1YIrpPwkwLiAAMo8Y4RtNA113.jpg

1 傳統流量監控工具看表象

很多漏洞利用攻擊、ShellCode攻擊都混雜着正常流量進入企業網層層防護關卡。要想知道每個數據包中攜帶了什么內容,普通的攝像頭已經失效,需要更強大的X透視相機-進行協議分析,只有准確理解事物的本質,才能對症下葯,Shellcode攻擊(下圖是shellcode和botnet的實例)和各種蠕蟲也是如此。

wKioL1YJRA-xRWn9AAkbObm-8fM219.jpg

wKiom1YJRAaDmKDbAAPivWNvabM847.jpg

 

 

3.大數據時代下安全運維的新挑戰

 

運維工程師們在大數據時代,下面對大量網絡安全事件,若沒有有效工具是無法完成分析工作,他們往往面對如下挑戰:

1)  每天出現巨大數量的安全報警,管理員很難對這些報警做出響應。

2)  誤報嚴重,管理員無法准確判斷故障。

3)  大量重復、零散而沒有規律的報警,黑客的一次攻擊行動,會在不同階段觸發不同安全設備的告警,這樣導致報警數據之間在時間和空間上存在大量重復數據,如果不實現安全事件的關聯處理,就無法有效的提高告警質量。

當出現這些問題的部分原因是企業缺乏事件監控和診斷等運維工具,因為如果沒有高效的管理工具支持,就很難讓故障事件得到主動、快速處理。市面上有很多運維監控工具,例如商業版的Cisco Works 2000、Solarwinds、ManageEngine以及專注故障監控的WhatsUp,在開源領域有MRTG、Nagios、Cacti、Zabbix、Zenoss、OpenNMS、Ganglia等。由於它們彼此之間沒有聯系,即便是你部署了這些工具,很多運維人員並沒有從中真正解脫出來,原因在於目前的技術雖然能夠獲取計算機設備、服務器、網絡流量,甚至數據庫的警告信息,但成千上萬條警告信息堆積在一起,讓人根本沒辦法判斷問題的根源在哪里,缺乏對信息進行篩選、數據挖掘的能力,其實我們並不缺少工具,商業的也好,開源的也吧,一抓一大把,為什么還是用不好?真正缺少的是分析數據的智能化。

另外我們的查看各種監控系統需要多次登錄,查看繁多的界面,更新管理絕大多數工作都是手工操作,即使一個簡單的系統變更或更新,往往需要運維人員逐一登錄系統,當設備數量達到成百上千時,其工作量之大可想而知。而這樣的變更和檢查操作在IT 運維中往往每天都在進行,這無疑會占用大量的運維資源。因此,運維工作人員需要統一的集成安全管理平台已迫在眉睫。

過去僅靠幾個“技術大拿”來包打天下已不能滿足要求,企業需要一種安全的運維平台,滿足專業化、標准化和流程化的需要來實現運維工作的自動化管理。因為通過集成監控系統能及時發現故障隱患,主動的告訴用戶需要關注的資源,感知網絡威脅,把故障消除在萌芽狀態。這極大降低了運維人員的工作負擔,最大限度地減少維修時間,提高服務質量。

 

4.人工整合開源工具

 

既然找不到合適的,我們就把常用的開源工具集成到一個Linux平台,這不是就實現統一管理平台了嗎?

wKioL1YIrt6z66R1AAMoiyXE1B0723.jpg

人工整合開源監控系統的難點:

1.  軟件和依賴依賴問題難以解決。

2.  各子系統界面重復驗證和界面風格問題。

3.  各子系統數據無法共享。

4.  無法實現數據之間關聯分析。

5.  無法生成統一格式的報表。

6.  缺乏統一的儀表板來展示重要監控信息。

7.  無法對網絡風險進行檢測。

8.  各子系統維護難度,增大了運維成本。

 

    實踐中發現,這種方案首先遇到了性能問題,一些腳本周期性消耗了較多的CPU和I/O資源,所以無法做到實時數據分析。試想有多少且能投入大量人力、時間去開發一個未知的監控平台?

 

5集成安全運維平台的選擇

一個好的安全運維平台需要將事件與IT 流程相關聯,一旦監控系統發現性能超標或出現宕機現象,就會觸發相關事件以及事先定義好的流程,自動啟動故障響應和恢復機制。還需要能夠篩選出運維人員完成日常的重復性工作,提高運維效率。要實現這些功能都是常規監控軟件Cacti、Zabbix所無法實現。

同時,還要求能夠預測網絡蠕蟲威脅,在故障發生前能夠報警,讓運維人員把故障消除在萌芽狀態,將所產生損失減到最低。總的來說運維人需要能夠在一個平台中實現資產管理、分布式部署、漏洞掃描、風險評估、策略管理、實時流量監控、異常流量分析、攻擊檢測報警、關聯分析、風險計算、安全事件告警、事件聚合、日志收集與分析、知識庫、時間線分析、統一報表輸出、多用戶權限管理的功能,這種集成開源工具到底有沒有?它去哪兒啦?

目前市面上有兩種產品可滿足這樣的要求,目前市面上的SIEM產品主要有HP Arcsight(后台掛Oracle庫)、IBM Security QRadar SIEM和Alienvault的OSSIM USM,現在的問題是並不缺少商業SIEM解決方案,在開源軟件中OSSIM到是最佳選擇。

很多人只是膚淺的認為OSSIM只是將一些開源工具集成到一個平台,在OSSIM中顛覆性創新主要在易用(容易安裝、部署,容易使用,幾乎不用自己寫腳本)、分布式監控系統、響應威脅(OTX)、關聯分析引擎、可視化攻擊展示等。

Alienvault分為開源OSSIM和商業版USM兩種,通過這一集成監控工具實現對用戶操作規范的約束和對計算機資源進行准實時監控,包括服務器、數據庫、中間件、存儲備份、網絡、安全、機房、業務應用等內容,通過自動監控管理平台實現故障或問題綜合處理和集中管理。

wKiom1YIrvnj6y5DAAEhFTX0JuM888.jpg

 

     如果你即不想購買昂貴的商業軟件,又不願意投入大量精力進行開發,那么實現集成安全管理平台OSSIM就是唯一的選擇,今天我刻苦鑽研的OSSIM項目,很可能是你明天要做的事。

       好了,我們看看OSSIM能夠為你帶來怎樣的體驗? 進入

 

     看完后,有何感言?如果你想系統學習OSSIM,請關注我即將出版的第四本專著

《開源安全運維平台--OSSIM最佳實踐》。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2026 CODEPRJ.COM