目标:分析实际生产中的网络拓扑及告警数据,设计并实现一种故障根因定位算法,准确的定位出故障根因节点。
产品功能:
1.分析全部告警,过滤重复、无效告警。
2.定位疑似根因节点,缩短定位时间。
3.可视化展现根因信息及根因关联的局部拓扑图。
对于赛题的分析,要确定真正的需求——快速的找到根因节点。从而提升网络运维的效率,降低损失。
快速寻找的方法就是——告警分析预处理:形成错误类型体系,对错误信息预处理,屏蔽无用信息,聚类生成错误种类。
每一个告警都携带有一个时间戳,这是一个十分关键的信息。
时间关联就是从时间序列的角度来联系告警序列,以便进行故障定位。
空间信息主要指的是网络的拓扑结构信息,空间关联过程就是从网络拓扑结构的角度来联系告警序列,以便进行故障定位。
模块:
一:拓扑发现模块
拓扑发现本不属于网络故障管理功能,它是配置管理功能之一。
由于本系统的故障定位算法主要基于对网络拓扑结构的分析来对告警进行关联处理,因此该模块是必须具备的。
拓扑发现模块主要完成对网元及其连接关系的发现,并将这些信息存入数据库的设备表devicetable和连接表linktable两张表中。
二:智能故障定位模块
1)Trap收集子模块:
2)Trap 解析入库及过滤子模块:
3)Trap浏览子模块:
4)创建关联关系子模块:
5)case信息子模块:
6)故障定位核心算法子模块:
原理图:
在实际网络运维中,根据故障特征自动匹配诊断规则,并进行诊断分析,自动得出故障点及相关处理建议。