AIOps是什么?
AIOps是人工智能在IT操作中的應用。它是ITOps的未來,將算法和人工智能結合在一起,為企業所依賴的It系統的狀態和性能提供全面的可見性。
簡單地說,AIOps是機器學習(ML)和數據科學在IT運營問題上的應用。AIOps平台結合了大數據和ML功能,以增強和部分替代所有主要的IT運營功能,包括可用性和性能監視、事件關聯和分析、以及IT服務管理和自動化。
AIOps的好處是什么?
- 采用AIOps的主要好處是,它使it操作達到最終用戶期望和需要的速度和敏捷程度。依賴於脆弱的基於模型的過程,將專業化增加到不連接的孤島中,最重要的是,太多的重復的手工活動,使得it操作人員很難跟上不斷增長的速度和對時間的需求。
- AIOps消除了噪音和干擾,使忙碌的IT專家能夠專注於重要的事情,而不會被無關的警報分散注意力。
- 通過跨多個數據源關聯信息,AIOps消除了孤島,並提供了跨整個IT環境(計算、網絡和存儲、物理、虛擬和雲)的整體視圖。
- 不同專家和服務所有者之間的無摩擦協作加快了診斷和解決時間,最大限度地減少了對最終用戶的干擾。
- 高級機器學習在后台捕獲有用的信息,並將其用於進一步改進對未來情況的處理。
AIOps是如何工作的?
AIOps處理現有的數據源,包括傳統的IT監視、日志事件、應用程序和網絡性能異常等等。來自這些源系統的所有數據都由一個數學模型處理,該模型能夠自動識別重要事件,而不需要費力的手動預過濾。第二層的算法分析這些事件,以識別相關事件的集群,這些事件都是同一潛在問題的症狀。
這種算法過濾大大降低了IT運營團隊必須處理的噪音水平,還避免了在將冗余票據路由到不同團隊時可能出現的工作重復。相反,虛擬團隊可以動態組裝,讓不同的專家圍繞一個跨越技術或組織邊界的問題“蜂擁而至”。現有的票務和事件管理系統可以利用AIOps功能,直接集成到現有流程中。
AIOps還通過允許在有或沒有人工干預的情況下觸發工作流,從而提高了自動化程度。ChatOps功能使現有的自動化和編配功能成為正常的協作診斷和修復過程中不可或缺的一部分。隨着機器學習系統變得越來越精確和可靠,在不需要人工干預的情況下,就可以觸發常規的、易於理解的操作,從而在用戶受到影響或甚至意識到任何問題之前,潛在地解決問題。
人工智能如何幫助運營人員?
變化的速度和數量要求日常任務的自動化,以便為不那么頻繁、不可預測和高價值的活動保留有價值的人類智能。AIOps將戰術活動的自動化與專家用戶的戰略監督相結合,而不是浪費IT運營人員的時間和專業知識來“保持燈光明亮”。
AIOps中的“人工智能”並不意味着人工操作員將被自動化系統取代。相反,人類和機器一起工作,算法增強了人類的能力,使他們能夠專注於有意義的事情。
如何啟動AIOps計划
- 不要等待。熟悉AI和ML的詞匯和功能,即使AIOps項目不是迫在眉睫。優先級和能力會發生變化,所以您可能比預期更快地需要它。
- 明智地選擇初始測試用例。從小事做起、獲取知識並在此基礎上迭代,可以使轉換計划受益。采用相同的方法來合並AIOps以獲得成功。
- 發展並證明你的能力。通過展示簡單的技巧來為你的同事和領導揭開AIOps的神秘面紗。確定技能和經驗的差距,然后制定一個計划來填補這些差距。
- 自由的實驗。盡管AIOps平台通常是成本高且復雜的產品,但是大量的開源和低成本的ML軟件可以幫助您評估AIOps和數據科學應用程序和用途。
- 超越它。利用組織中可能已經存在的數據和分析資源。數據管理是AIOps的一個重要組成部分,而且團隊通常已經很熟練了。業務分析和統計分析是任何現代組織的關鍵組成部分,許多技術跨越了問題領域。
- 盡可能標准化,盡可能現代化。通過采用一致的自動化體系結構、基礎設施即代碼(IaC)和不可變的基礎設施模式,准備您的基礎設施以支持最終的AIOps實現。
如何將AIOps與您當前的工具集成
AIOps與現有的工具和流程進行集成,將以前被鎖定在不相連的孤島上的信息、見解和功能整合在一起。公司在不同的地方為不同的目的使用多種不同的監控工具。每一個對於特定的團隊或功能來說都是有價值的,但是對於其他感興趣的人來說就不那么容易獲得了。AIOps通過在所有工具、團隊和領域之間提供無縫的共享可視性,使得單個工具能夠蓬勃發展,而不是通過將費力的工具合理化活動(這些活動試圖將單個的需求硬塞進一個放之四海而皆准的解決方案中)。
以同樣的方式,AIOps通過確保只創建真實的、可操作的事件並避免重復來改進和支持ITSM。沒有必要拋棄每個組織基於itil的過程中所蘊含的經驗。相反,AIOps解決並消除了用戶對ITSM的許多不滿,這是由於ITIL固有的順序性。
最后,AIOps還引入了自動化,集成了編配和運行手冊,並使操作人員可以直接以部分或完全自動化的方式使用它們。多年來,IT組織通常已經開發了大量的自動化解決方案庫,但是需要確保它們只由正確的條件觸發。AIOps確保了這一點,最小化風險,最大化自動化領域現有投資的價值。
關於人工智能和機器學習你需要知道什么
AIOps中的AI不是一般的智能。相反,一組專門的算法只專注於特定的任務。不同的算法可以從嘈雜的事件流,找出重要的警告,識別從不同來源之間的警報相關性,組裝正確的專家團隊診斷和解決情況,提出基於過去的經驗的可能的根本原因和可能的解決方案,學習反饋以改善隨着時間的推移不斷。
聚類和關聯是最復雜和最關鍵的步驟,需要多種不同的方法。歷史模式匹配和實時識別的組合有助於IT運營團隊識別重復出現的問題和網絡新問題。可以通過引用外部數據源(如有)豐富原始的監視事件;這種充實有助於交付更好的相關性,以及服務影響信息。
AIOps關鍵特性
Gartner的AIOps平台市場指南列出了AIOps平台的11個關鍵需求。要真正有價值,AIOps平台應該在所有這些領域都具有強大的能力。單一用途的工具只對定義非常狹窄的用例有用。
- 存儲:歷史數據的攝入和索引
- 流:實時數據的捕獲、規范化和分析
- 日志:從軟件或硬件生成的日志文件中捕獲和准備文本數據
- 度量:可以立即應用時間序列和更一般的數學操作的數據
- 線數據:包數據,包括協議和流信息,被捕獲並提供給訪問和分析
- 文檔文本數據:人類可讀文檔的攝取、解析、語法和語義索引
- 自動模式發現和檢測:在描述相關性的數據流中識別數學或結構模式的能力,然后可以用來識別未來的事件
- 異常檢測:使用模式首先確定什么構成正常的系統行為,然后確定偏離正常的系統行為
- 因果分析:根本原因的確定,使用自動模式發現分離真正的因果關系,並引導操作員干預
- 前提:上面定義的功能可以在客戶的前提下交付,而不需要訪問任何遠程組件
- 雲:上面定義的功能可以在雲中交付,不需要在本地安裝任何組件
只有能夠吸收所有這些數據類型、應用這些不同類型的分析並根據客戶的需求進行部署的解決方案才能滿足Gartner對AIOps平台的所有需求。
誰在使用AIOps?
大型復雜的企業依賴IT來開展業務
擁有廣泛IT環境、跨越多種技術類型的公司已經面臨復雜性和規模的問題。當這些被嚴重依賴於它的商業模式混合在一起時,AIOps會對公司的成功產生巨大的影響。盡管這些組織可能在許多不同的行業中,但是它們共享一個共同的規模,並且變化的速度非常快,因為對業務敏捷性的需求反過來又產生了對IT敏捷性越來越多的需求。
-
DevOps的團隊
正在采用DevOps模型的公司,或者已經采用DevOps模型的公司,可能很難在不同的角色之間保持一致。將開發和操作系統直接集成到一個整體AIOps模型中,可以消除在該接口上可能出現的許多摩擦。通過確保開發團隊更好地理解環境的狀態,並反過來使得DevOps團隊能夠了解開發人員的修改,使得部署到生產環境更加順利, 所以這個整體視圖確保整個項目的成功,而且增加的靈活性和響應性。 -
雲計算
向雲計算的遷移會帶來自身的挑戰,尤其是在規模伸縮方面,將其大規模遷移到雲計算可能是不可取的。這些混合模型結合了各種形式的IT基礎設施交付,可能很難操作。通過跨所有基礎設施類型交付整體視圖,並幫助操作人員理解變化太快而無法記錄的關系,AIOps消除了混合雲平台操作的大部分風險。
參考:
https://www.gartner.com/smarterwithgartner/how-to-get-started-with-aiops/
https://www.moogsoft.com/resources/aiops/guide/everything-aiops/
https://resolve.io/what-is-aiops
https://www.bmc.com/blogs/what-is-aiops/
熟悉Moogsoft AIOps平台:
人工智能用於IT操作(AIOps)是一種可擴展的方式,可以簡化企業IT的復雜性,並幫助操作人員快速識別和糾正影響重要服務性能的問題。
https://info.moogsoft.com/rs/092-EGH-780/images/moogsoft_everything_you_need_to_know_aiops.pdf