維護工程師必讀,故障處理原則及注意事項


維護工程師必讀

1.1 故障處理原則及注意事項
故障處理原則
請遵循以下原則對故障進行分析、定位和處理:
● 以盡快恢復系統為原則。
● 定位故障時,應及時采集故障數據信息,並盡量將采集到的故障數據信息保存在移動存儲介質或網絡中的其它計算機中。
● 在確定故障處理的方案時,應先評估影響,優先保證業務的正常傳送。
● 第三方的硬件故障,可查看第三方的相關資料或撥打第三方公司的服務電話。
● 如果無法定位出故障點或無法按手冊解決故障,可聯系華為技術支持,並配合華為公司工程師處理故障,最大程度減少業務中斷時間。

故障處理注意事項
維護工程師開展故障定位和處理工作前,請仔細閱讀並遵循以下事項:
● 發生故障時請先評估是否為緊急故障,是緊急故障請使用預先制定的緊急故障處理方法盡快恢復故障模塊,進而恢復業務。
● 嚴格遵守操作規程和行業安全規程,確保人身安全與設備安全。
● 在故障處理過程中遇到的任何問題,應詳細記錄各種原始信息,不能隨意刪除數據或日志。
● 應先分析故障現象,定位原因后再進行處理。在原因不明的情況下應避免盲目操作,導致問題擴大化。
● 在處理故障時,為了確保客戶網絡的安全和隱私,如果需要采集相關故障日志,請事先得到客戶的同意。
● 所有的重大操作,如重啟設備、擦除數據庫等均應作記錄,並在操作前仔細確認操作的可行性,在做好相應的備份、應急和安全措施后,方可由有資格的操作人員執行。
● 更換和維護設備部件過程中,要做好防靜電措施,佩戴防靜電腕帶。

● 在系統恢復后,必須對運行情況進行觀察,確認故障已經排除並及時填寫相關的處理報告。

 

1.2 故障處理思路
故障處理的流程如圖1-1所示,其基本思想是系統地將故障的所有可能原因縮減或隔離成幾個小的子集,從而使問題的復雜度迅速下降。故障處理系統化需要遵循按照合理的步驟找出故障原因並解決故障的總體原則。
圖1-1 故障處理流程圖

故障感知 → 故障信息收集 → 信息分析 → 故障點界定 → 故障恢復

故障的發生可以從用戶側感知(比如,無法上網),也可以從網絡側感知(比如,設備出現異常告警)。感知到故障后,需要第一時間收集各設備的故障信息,然后對故障信息進行分析,定界故障點后進行恢復處理。對於方案級的整網故障處理,關鍵是根據故障現象快速將故障發生點定界到部件,然后再進行恢復處理。

 

1.3 信息收集
在聯系技術支持之前,請首先收集故障相關信息,主要包括:

● 發生故障的時間、故障點的網絡拓撲結構、導致故障的操作、故障現象、故障后已采取的措施和結果、故障影響的業務范圍等信息。

● 發生故障的設備的名稱、版本、當前配置、接口信息等,具體方法請參考3.1.4 一鍵信息采集(必須采集項)和3.4.1.3 常用display命令。

● 發生故障時產生的日志信息,具體方法請參考3.1.5 獲取日志信息(必須采集項)。

 故障基本信息收集

出現故障時,首先需要采集的故障基本信息如下表所示。
● 故障時間記錄發生故障的時間,精確到分鍾。
● 故障現象收集故障現象並詳細記錄。
● 故障影響記錄故障的嚴重程度和影響的業務范圍。
●組網信息畫出組網圖。主要包括上下行設備、對接接口等。
● 已采取的措施記錄發生故障后已采取的措施和結果(包括完整的配置過程和輸出信息)。

信息采集注意事項
● 信息采集請依據當地法律法規實施。
● 凡是標注必須采集項的條目表示本次信息采集必須要采集的內容,集中在前面幾個采集條目。
● 除必須采集項,其他根據具體問題選擇相應項進行采集。收集故障現象及網絡拓撲圖(必須收集項)

● 清楚明確地記錄故障現象,必須包含AC和AP的設備型號、軟件版本等信息。

● 記錄故障發生的具體時間,以便采集相應時間段的日志。
● 搞清楚組網圖和網絡中的設備是怎么互連的,提供網絡拓撲圖。

一鍵信息采集(必須采集項)
通過display diagnostic-information命令可以獲取設備的診斷信息,它集合了多條常用display命令的輸出結果,是一鍵采集的好方法。
設備提供了display diagnostic-information [ file-name ]命令,該命令可以將設備目前運行的診斷信息輸出到屏幕或txt文件。包含啟動配置、當前配置、接口信息、時間、系統版本等大量有用信息。該命令使用方法如下:
<AC6605> display diagnostic-information dia-info.txt
This operation will take several minutes, please wait........................................................................................……
Info: The diagnostic information was saved to the device successfully.
缺省保存路徑為系統默認存儲設備的根目錄(flash:/或sdcard:/),用戶視圖下使用dir命令可以確認文件是否正確生成。在設備發生故障后,將診斷信息文件提交給代理商或華為技術有限公司,有助於盡快完成故障的定位和解決。將診斷信息文件從設備上傳輸到終端(PC)上的方法請參見使用FTP/TFTP傳輸文件。
說明
● 此命令執行時間較長,如果采用直接在終端的顯示方式,可以通過按Ctrl+C停止。
● 因為診斷信息命令輸出內容較多,可能會出現系統CPU占用率短時間升高的情況。

 

1.4 獲取日志信息(必須采集項)
當設備出現故障時,收集設備日志信息,有助於用戶了解設備運行過程中發生的情況,定位故障點。
日志信息主要記錄用戶操作、系統故障、系統安全等信息,包括用戶日志和診斷日志。用戶可通過如下方式獲取用戶日志和診斷日志信息:
<AC> save logfile
<AC> system-view
[AC] diagnose
[AC-diagnose] save diag-logfile
[AC-diagnose] return
<AC> cd logfile/
<AC> dir
Directory of flash:/logfile/

執行完上述命令后,用戶日志和診斷日志會分別以log.log和log.dblg的格式保存在日志目錄下(logfile),將logfile/下的日志文件按照時間段通過FTP/TFTP傳輸到終端(PC)上,傳輸方法請參見3.3.5 使用FTP/TFTP傳輸文件。
說明
● 本例以AC為例,AP上獲取日志的方式和AC一樣。
● 日志是按照時間順序進行保存的,日志格式為日期.時間.log或日期.時間.dblg,獲取日志文件后,可以重點分析發生故障時間之前及之后的幾個日志文件,方便定位問題。
● V200R008C10及之后版本,只需執行save logfile命令即可導出用戶日志和診斷日志。對於支持藍牙串口的AP,還可以通過CloudCampus APP來導出日志信息,具體步驟如下:
1. 通過藍牙串口登錄AP后,開啟Log Recording功能來保存操作日志。

收集基本信息(AC/AP 通用)
● 查詢接口相關狀態
<AC> display interface brief
● 查詢設備MAC表項
<AC> display mac-address
● 查詢設備ARP表項
<AC> display arp all
● 查詢CP-CAR配置及丟棄計數
<AC> display cpu-defend configuration wired
<AC> display cpu-defend configuration wireless
<AC> display cpu-defend statistics wired
<AC> display cpu-defend statistics wireless

收集其他信息

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM