本文檔介紹了S系列交換機設備異常重啟/單板異常復位問題的常見原因、定位方法和解決步驟,同時提供了相關的典型案例及參考信息,為維護工程師處理現網設備的故障問題提供一些參考。
3 盒式交換機整機重啟故障
3.1 設備異常重啟后,可以啟動
3.1.1 故障診斷流程
圖3-1 盒式交換機整機重啟故障診斷流程圖

?
3.1.2 故障診斷步驟及解決措施
3.1.2.1 查看交換機的類型和版本信息
??????????????????????????????? 步驟 1???? 通過display device命令,查看交換機的型號及狀態信息。
<HUAWEI> display device
S5700-52P-LI-AC's Device status:?????????????
Slot Sub? Type??? Online??? Power????? Register???? Status?? Role?
------------------------------------------------------------------
0?? - S5720-56C-HI-AC Present?? owerOn?? Registered?? Normal?? Master
通過顯示信息可看出設備型號為S5720-56C-HI-AC。
??????????????????????????????? 步驟 2???? 通過display version命令,查看交換機的版本信息。
<HUAWEI> display version?
Huawei Versatile Routing Platform Software
VRP (R) software, Version 5.160 (S5720 V200R008C00)
Copyright (C) 2000-2015 HUAWEI TECH CO., LTD
HUAWEI S5720-56C-HI-AC Routing Switch uptime is 0 week, 1 day, 3 hours, 24 minutes
ES5D2T52C001 0(Master) : uptime is 0 week, 1 day, 3 hours, 23 minutes
4095M bytes DDR Memory
64M bytes FLASH
Pcb????? Version :? VER.A
Basic? BootROM? Version : 0208.0015 Compiled at Mar 20 2014 , 22:53:47
BootLoad? Version : 0208.0015 Compiled at Mar 14 2014 , 13:33:43
CPLD?? Version : 0100
Software Version : VRP (R) Software, Version 5.160 (V200R008C00)
CARD2 information
Pcb????? Version : ES5D21X04S01 VER.A
PWR1 information
Pcb????? Version : PWR VER.A?
?
?
通過顯示信息可看出設備的軟件版本為V200R008C00。
----結束
3.1.2.2 查看交換機的重啟原因
??????????????????????????????? 步驟 1???? 通過display reboot-info命令,查看交換機的重啟信息。
<HUAWEI> display reboot-info
Slot ID?? Times?? ???????Reboot Type????????? Reboot Time(DST)???
==================================================================
0???????? 1????????????? POWER?????????????? 2013/07/18 19:19:56?
0???????? 2????????????? SCHEDU????????????? 2013/07/18 18:51:04?
0??? ?????3????????????? SOFTWARE??????????? 2013/07/18 18:41:22?
0???????? 4????????????? EXCEPTION?????????? 2013/07/18 17:38:26?
0???????? 5????????????? MANUAL????????????? 2013/07/18 17:31:14?
0???????? 6????????????? MANUAL????????????? 2013/07/18 17:26:01?
0???????? 7????????????? EXCEPTION?????????? 2013/07/18 17:03:28?
==================================================================
Total?? 7
表3-1 display reboot-info命令輸出信息描述
項目 |
描述 |
Slot ID |
堆疊使能后,表示堆疊ID;堆疊未使能時,表示槽位號。 |
Times |
表示重新啟動的次數。 |
Reboot Type |
表示重新啟動的類型,包括MANUAL、POWER、SCHEDU、FSP、EXCEPTION、VRP、SOFTWARE和OTHER八種類型。 |
Reboot Time(DST) |
表示重新啟動的時間。 對於不支持RTC功能的設備,設備配置了NTP功能后會在120秒內同步網絡內的系統時鍾(同步過程中顯示時間為設備出廠的系統時間)。如果同步失敗顯示為設備出廠的系統時間。 |
?
??????????????????????????????? 步驟 2???? 分析查詢到的重啟原因並執行相應措施。display reboot-info查詢到的復位類型包括八種,如表3-2所示。
表3-2 重啟類型、原因及處理方法
重啟類型 |
原因 |
處理方法 |
MANUAL |
通過reboot命令或用網管進行的人為重啟。 |
確認擁有重啟權限的用戶是否重啟了設備 |
POWER |
掉電重啟,通常插拔電源導致的重啟。 |
通過查看告警和設備外觀及環境排查以下幾種原因: l? 人為下電 l? 電網不穩 l? 電源故障 |
SCHEDU |
通過schedule reboot命令定時重啟。 |
無,屬於正常重啟 |
FSP |
堆疊***、合並或Mod-ID分配錯誤導致的重啟。 |
通過查看告警及日志進一步定位 |
EXCEPTION |
異常或死循環導致的重啟。 |
通過查看告警及日志進一步定位 |
VRP |
VRP軟件平台導致的重啟。 |
通過查看告警及日志進一步定位 |
SOFTWARE |
其余軟件上能夠追蹤到重啟原因。 |
通過查看告警及日志進一步定位 |
OTHER |
l? Flash、內存等硬件故障導致的重啟。 l? 設備溫度過高導致的重啟。 l? 設備瞬間上下電,如電源線纜接觸不良導致。或者設備瞬間的過壓失壓導致,這時需要檢查外部接入是否正常。 l? 一切其他原因導致的重啟,包括設備加入堆疊后的重啟,及其他無法具體分類的原因。 |
l? 3.1.2.4 查看設備外觀和環境 l? 通過查看告警及日志進一步定位 |
?
----結束
3.1.2.3 查看告警
查看告警方法
當設備發生故障,或設備所處環境超出正常工作要求時,將導致系統無法正常工作,系統能夠根據不同類型的故障產生告警信息。
告警信息可以通過如下兩種方式查看到:
l?? 通過網絡管理系統界面(如esight網管)直接查看告警信息。
l?? 通過display trapbuffer [ size value ]命令在命令行終端界面查看設備上告警顯示區內的告警信息。
告警顯示區內的信息與指定的告警顯示條目,即value的大小有關。如果當前告警顯示區內信息數少於用戶指定的顯示條目,則在終端界面上顯示實際條數的告警信息。
<HUAWEI> display trapbuffer
Trapping buffer configuration and contents : enabled????????????????????????????
Allowed max buffer size : 1024?????????????? ????????????????????????????????????
Actual buffer size : 256????????????????????????????????????????????????????????
Channel number : 3 , Channel name : trapbuffer??????????????????????????????????
Dropped messages : 0?????????????????????????????????? ??????????????????????????
Overwritten messages : 6248?????????????????????????????????????????????????????
Current messages : 256??????????????????????????????????????????????????????????????????????????????????????????????????????????????
#Sep 19 2012 04:38:03+08:00 HUAWEI DS/4/DATASYNC_CFGCHANGE:OID 1.3.6.1.4.1.2011
.5.25.191.3.1 configurations have been changed. The current change number is 8,?
the change loop count is 0, and the maximum number of records is 4095.??????????
#Sep 19 2012 04:37:39+08:00 HUAWEI LINE/5/VTYUSERLOGIN:OID 1.3.6.1.4.1.2011.5.2
5.207.2.2 A user login. (UserIndex=34, UserName=VTY, UserIP=10.135.18.114, UserC
hannel=VTY0)????????????????????????????????????????????????????????
也可使用如下命令來查看設備的具體告警信息:
l?? 執行命令display alarm urgent,查看設備溫度異常、風扇異常、芯片異常等硬件管理相關的告警信息。
l?? 執行命令display alarm active,查看設備啟動后當前仍然未恢復的告警信息。
l?? 執行命令display alarm history,查看設備啟動后記錄的歷史告警信息。
與設備重啟相關的常見告警及處理方法
表3-3 與設備重啟相關的常見告警及處理方法







建議采用如下技巧幫助您更快速的搜索到准確的告警:
l? 由於“告警ID”唯一標識一條告警,建議您通過“告警ID”在《告警處理》手冊中進行搜索,從而快速查找到對應告警的解釋及處理步驟。
l? 對於一條ID相同的告警,如果觸發原因不同,輸出信息中通過攜帶不同的錯誤碼(如BaseTrapProbableCause)來標識,這時,請通過錯誤碼在《告警處理》手冊中進一步搜索。
l? 也可以通過信息查詢助手工具直接查詢相關告警信息。
查詢時請勿攜帶可變信息進行搜索,例如告警產生時間、接口編號、進程編號、設備命名等。
3.1.2.4 查看設備外觀和環境
如果設備的重啟原因類型為POWER或OTHER,或者查看告警中發現電源、風扇或溫度類的告警,可通過查看設備外觀和外部環境來排查。
排查電源異常導致的設備重啟
??????????????????????????????? 步驟 1???? 根據記錄的reboot time,確認用戶電網該時間段有沒有突發掉電的情況,主要包括以下幾個方面:
l?? 是否人為操作導致的設備下電。
l?? 如果是UPS供電,查看UPS的日志,在該時間段是否有異常記錄。
l?? 同一個機櫃/同一個供電的網絡內其他設備有沒有過掉電。
l?? 該時間段是否有大功率設備接入導致供電不足的情況。
l?? 排查是否有線路老化、接觸不牢導致掉電的情況。
l?? 使用萬用表測量輸入電壓是否正常。
如果排查存在異常,按照排查的具體原因解決外部供電的問題。
??????????????????????????????? 步驟 2???? 查看設備外觀有沒有明顯的端口發黃變色痕跡,如有明顯的水晶頭發黃變色痕跡,一般屬於雷擊或者浪涌造成的故障,可能是內部CPU芯片被擊壞失效,請3.1.2.6 聯系技術支持人員。
??????????????????????????????? 步驟 3???? 排查下交換機自身電源是否異常。
l?? 如果設備是內置電源模塊,即不能方便的通過交叉驗證的設備,在確認外部電源沒有問題的情況下存在電源類告警,請3.1.2.6 聯系技術支持人員。
l?? 如果是可插拔的電源模塊,檢查電源模塊是否被拔出或安裝牢固。在客戶允許的情況下,可以嘗試更換電源槽位、交叉驗證電源模塊等手段確認是否電源模塊自身故障。如果交叉驗證后故障跟隨設備,請3.1.2.6 聯系技術支持人員。
----結束
排查溫度或風扇異常導致的設備重啟
??????????????????????????????? 步驟 1???? 查看設備的工作環境溫度是否正常(一般設備的工作環境溫度為0°C~45°C),如果溫度過高,相應降低機房的環境溫度。
??????????????????????????????? 步驟 2???? 查看設備的通風區域是否被阻擋。如果有阻擋,清除阻擋后觀察設備的溫度是否恢復正常。
??????????????????????????????? 步驟 3???? 如果是風扇強制散熱的設備,查看風扇模塊是否被拔出或安裝牢固。
??????????????????????????????? 步驟 4???? 檢查風扇模塊是否正常運轉,設備的出風口是否有氣流排出。如果排查為風扇故障(風扇不轉或存在風扇類告警),可插拔的風扇模塊通過更換風扇模塊解決,內置風扇的設備請3.1.2.6 聯系技術支持人員。
----結束
3.1.2.5 查看日志
如果通過以上步驟仍無法定位設備重啟的原因,可通過查看設備日志進一步分析。
查看日志方法
設備在運行過程中,主機軟件中的日志模塊會對運行中的各種情況進行記錄,從而形成日志信息。日志信息主要用於查看設備的運行狀態、分析網絡的狀況以及定位問題發生的原因,為系統進行診斷和維護提供依據。
可以通過控制口或telnet方式登錄到設備,使用命令display logbuffer查看保存在日志緩存中的內容,還可以在設備上對日志信息進行保存,使用syslog協議將日志信息輸出到日志服務器。
# 使用命令display logbuffer查看Log緩沖區的所有日志信息。
<HUAWEI> display logbuffer
Logging buffer configuration and contents : enabled??????????????????
Allowed max buffer size : 1024????????????? ??????????????????????????
Actual buffer size : 512?????????????????????????????????????????????
Channel number : 4 , Channel name : logbuffer????????????????????????
Dropped messages : 0?????????????????????????????????????????????????
Overwritten messages : 0?????????????????????????????????????????????
Current messages : 43????????????????????????????????????????????????
?
Oct 16 2013 06:06:48 HUAWEI %%01VFS/4/DISKSPACE_NOT_ENOUGH(l)[3]: Disk space is insufficient. The system begins to delete unused log files.?
Oct 10 2013 19:06:48 HUAWEI %%01VFS/4/DISKSPACE_NOT_ENOUGH(l)[4]: Disk space is insufficient. The system begins to delete unused log files.?????????????????????????????????????????????????????
? ---- More----
與設備重啟相關的常見日志及處理方法
表3-4 與設備重啟相關的常見日志及處理方法
信息摘要 |
日志含義 |
可能原因 |
處理方法 |
FSP/4/ID_ASSIGNED |
從交換機被主交換機連續指定了兩次不同的堆疊ID。 |
設備異常導致從交換機重啟。 |
出錯設備會自動重起,如果重啟后故障現象仍然存在請3.1.2.6 聯系技術支持人員。 |
FSP/4/COLLECT_TIMEOUT |
從設備連接超時。 |
設備出現異常。 |
FSP/4/SPDU_LOST_NOTRUN |
從設備在非RUN狀態的時候丟失主交換機的心跳報文。 |
從設備出現異常或者和從設備連接的主設備堆疊口發生故障。 |
FSP/4/SPDU_LOST |
堆疊成員丟失了主設備的SPDU報文。 |
堆疊成員丟失了主設備的spdu報文。 |
FSP/4/LOST_IDENTIFY |
主設備無法識別堆疊成員。 |
設備無法加入堆疊。 |
不能識別的從設備會自動重起,排查堆疊配置是否正確。 |
FSP/4/TOPO_CHANGE |
拓撲結構變化(環形變鏈型或者鏈型變成環形)。 |
有設備離開或者加入堆疊環境。 |
l? 確認是否是用戶主動進行堆疊***,如果是,無需處理;如果非用戶主動***,請執行下一步。 l? 確認成員交換機是否掉電,如果掉電,重新給設備上電,設備自動完成堆疊合並;如果離開的成員交換機並沒有掉電,請執行下一步。 l? 確認堆疊配置是否被其他用戶誤刪除或改動。 執行命令display stack current-configuration,確認針對離開的成員交換機的堆疊配置是否被改動,如果有,請修改回原配置,並確認是否堆疊合並,如果堆疊未合並,或堆疊配置沒有變動,請執行下一步。 l? 確認堆疊線鏈路是否發生故障。 執行命令display interface stack-port,查看堆疊鏈路是否Up,以及收發包是否正常,如果端口Down,或者收發包的數量很小,說明此端口上連接的堆疊鏈路發生故障,請更換堆疊線纜或光模塊。 確保堆疊鏈路正常后,如果堆疊依然未合並,請執行下一步。 l? 3.1.2.6 聯系技術支持人員。 |
FSP/4/NBR_LOST |
堆疊設備的端口發現鄰居丟失。 |
有成員主動離開堆疊或成員交換機發生故障。 |
FSP/4/STACK_LEAVE |
某設備離開堆疊環境。 |
設備的端口down。 |
LOAD/6/CLIENTLEFT |
正在下載系統軟件的新成員交換機離開了堆疊系統,同時指明提供系統軟件的成員交換機ID。 |
如果堆疊成員交換機間系統軟件版本不同,堆疊建立或合並時,新加入的交換機會主動向已加入的臨近成員交換機請求下載系統軟件。如果新加入的交換機在下載系統軟件的過程中掉電,或者堆疊線纜故障,堆疊系統中會產生此日志。 |
LOAD/6/SLOTLEFT |
成員交換機離開堆疊系統。 |
堆疊***,成員交換機離開堆疊系統。 |
MAD/4/CONFLICT_DETECT |
發現多主場景。 |
堆疊鏈路故障,出現多主。 |
修復堆疊鏈路故障。 |
FSP/4/SWTICH_REBOOTING |
堆疊合並過程中,成員交換機重啟。 |
堆疊合並過程中,競爭失敗的堆疊系統的成員交換機重啟加入新的堆疊系統。 |
正常情況無需處理。 |
SRM/3/REF_CLK_FAULT |
XAUI接口參考時鍾故障。持續故障可能會導致設備重啟。 |
XAUI接口參考時鍾故障。 |
3.1.2.6 聯系技術支持人員。 |
?

建議采用如下技巧幫助您更快速的搜索到准確的日志:
l? 由於“信息摘要”唯一標識一條日志,建議您通過“信息摘要”在《日志參考》手冊中進行搜索,從而快速查找到對應日志的解釋及處理步驟。
l? 使用《日志參考》手冊時,請勿攜帶可變信息進行搜索,例如日志產生時間、接口編號、進程編號、設備命名等。
舉例如下:
對於出現的日志:Apr 27 2014 07:45:35 HUAWEI %%01SHELL/4/LOGIN_FAIL_FOR_INPUT_TIMEOUT(s)[6]:Failed to log in due to timeout.(Ip=10.135.19.157, UserNa me=**, Times=1, AccessType=TELNET, VpnName=)。使用信息摘要“LOGIN_FAIL_FOR_INPUT_TIMEOUT”在《日志參考》手冊中即可搜索到對應的解釋為“用戶由於輸入用戶名或密碼超時導致登錄失敗”。
3.1.2.6 聯系技術支持人員
如果經過以上步驟仍無法定位設備重啟原因,請收集相關故障信息,並將其提交給代理商或華為技術有限公司進行定位和處理。
需要收集的故障信息如下:
?發生故障的時間、故障點的網絡拓撲結構(例如故障設備連接的上下游設備、所處的網絡位置)、導致故障的操作、故障后已采取的措施和結果、故障現象和影響的業務范圍等信息。
?發生故障的設備的名稱、版本、當前配置、接口信息等,可使用一鍵信息采集。
?發生故障時產生的日志信息。
?如果設備重啟后無法正常啟動,還需要收集在啟動過程中的串口打印信息。
一鍵信息采集
通過display diagnostic-information命令可以獲取設備的診斷信息,它集合了多條常用display命令的輸出結果,包括設備的啟動配置、當前配置、接口信息、時間、系統版本等等,是一鍵采集的好方法。
設備提供了display diagnostic-information [ file-name ]命令,該命令可以將設備目前運行的診斷信息輸出到屏幕或txt文件,如果不加file-name參數,就是將診斷信息輸出到屏幕;如果加file-name參數,就是將診斷信息輸出到以file-name命名的txt文件,包含啟動配置、當前配置、接口信息、時間、系統版本等大量有用信息。建議將診斷信息輸出到txt文件。該命令使用方法如下:
<HUAWEI> display diagnostic-information dia-info.txt
? This operation will take several minutes, please wait.........................
Info: The diagnostic information was saved to the device successfully.
txt文件的缺省保存路徑為flash:/,用戶視圖下使用dir命令可以確認文件是否正確生成。
采用直接在屏幕的顯示方式,如命令輸出的診斷信息較長,可以通過按Ctrl+C停止。
另外,該命令主要用於問題定位,搜集系統診斷信息,搜集時可能會影響系統的性能(例如CPU占用率升高等)。因此,在系統正常運行時不建議執行該命令。並且,嚴禁在連接到設備的多個終端上同時執行該命令,否則可能造成設備的CPU占用率明顯增高,導致設備性能下降。
目前常用的終端配置軟件都提供了將顯示信息輸出到文件的功能,如Windows自帶的超級終端:“傳送 > 捕獲文字”,輸入保存的文件名后點擊“啟動”即可。完成配置后,直接執行display diagnostic-information命令,則會將所有診斷信息直接輸出到顯示終端屏幕上,並自動以文件形式保存到配置終端指定的路徑下。
獲取日志文件
設備支持日志和告警信息保存到日志文件中,用戶可通過如下操作步驟獲取日志文件中的日志和告警信息:
1.???????? 執行命令save logfile,手動將日志文件緩存區中的信息保存到日志文件中。
2.???????? 執行完上述命令后,將flash:/syslogfile/(V200R005C00及后續版本是flash:/logfile/)和flash:/resetinfo/下的所有文件通過FTP/TFTP傳輸到終端(PC)上。

如果涉及堆疊系統***和復位等故障,需要收集所有相關成員交換機中的日志文件。
3.2 設備異常重啟后,無法啟動
設備重啟后無法啟動類故障,要根據設備啟動時提示的打印信息來判斷故障原因,多為硬件器件故障或大包文件丟失或損壞導致,下面列出常見的幾種典型現象及原因,更多無法啟動類的故障處理方法可參見《設備無法啟動》故障專題手冊。
故障現象1
設備反復重啟,啟動時的打印以下幾種信息:
DRV_Arch_Init: chip_init ret 1
?root <cx_lsw_init.c,5554> DRV_Lsw_Init: DRV_Arch_Init Fail!
BIOS LOADING ...
Copyright (c) 2008-2010 HUAWEI TECH CO., LTD.
(Ver127, Jan 18 2011, 22:45:47)
?
Press Ctrl+B to enter BOOTROM menu... 0
Auto-booting...
Update Epld file ............................ None
Decompressing VRP software .................. done
USB2 Host Stack Initialized.
USB Hub Driver Initialized
USBD? Wind River Systems, Inc. 512 Initialized
EHCI Controller found.
Waiting to attach to USBD...
USB_MODE_REG=0x3
Done.
usbPegasusEndInit () returned OK
0x62ffe68 (tRootTask): usbBulkDevInit() returned OK
logTask: 6 log messages lost.
?
root <cx_lsw_init.c,4634> DRV_PDT_Func_Init: DRV_VLAN_AddMember ret 8
root <cx_lsw_init.c,5634> DRV_Lsw_Init: DRV_PDT_Func_Init Fail!
--------------------------------------------------------------------
soc num 1, port num 28
soc 0 info:
modid 0, devid 0xdd74, venid 0x11ab, bar0 0xf4000000, bar1 0x0
--------------------------------------------------------------------
或:
There
Initializing LSW ....................... failed
is
或:
Drv_Lsw_Probe: Warning: Not All Chip Probed!
或:
Error: Some LSW chips are not detected
打印信息中提示Lsw類異常信息,此問題一般是轉發器件LSW初始化故障,建議聯系技術支持人員處理。
故障現象2
設備運行中突然重啟,之后無法啟動,啟動時的打印信息如下:
BIOS LOADING ...
BIOS LDDR SDRAM test ...............fail
Error type: Data bus walk 0
Error bus : MDQ 0x0000000B
打印信息中提示LDDR SDRAM test ..................fail,報此錯誤的一般原因為DDR內存或CPU個體失效,建議聯系技術支持人員處理。
故障現象3
設備運行中突然重啟,之后無法啟動,並且無法格式化和擦除Flash。
FILESYSTEM SUBMENU
1. Erase Flash
2. Format flash
3. Delete file from Flash
4. Rename file from Flash
5. Display Flash files
6. Update EPLD file
7. Return to main menu
Enter your choice(1-7): 2
Note: Format flash will damage Flash file system.
Format flash? Yes or No(Y/N): y
Formatting Flash, please waiting several minutes .Track_record_number 29.9
format failed!
FILESYSTEM SUBMENU
1. Erase Flash
2. Format flash
3. Delete file from Flash
4. Rename file from Flash
5. Display Flash files
6. Update EPLD file
7. Return to main menu
Enter your choice(1-7): 1
Note: Erasing flash will damage Flash file system.
After erasing Flash, you should reset your system.
Erase flash? Yes or No(Y/N): y
Erase flash ...Erase failed!!
此類問題一般是由flash個體失效導致,建議聯系技術支持人員處理。
故障現象4
設備反復重啟,啟動時打印以下幾種信息:
Begin to start the system, please waiting ......
INSTALL IPC AND VP DRIVER........OK
VOS VFS init.....................OK
Startup File Check...............OK
Paf File Read....................OK
VOS monitor init.................OK
CFM init advance.................OK
PAT init ........................OK
HA S2M init......................OK
VOS VFS init hind ...............OK
VRP_Root begin...
VRP_InitializeTask begin...
Init the Device Link.............OK
CFG_PlaneInit begin..............OK
CFM_Init begin...................OK
CLI_CmdInit begin................OK
VRP_RegestAllLINKCmd begin.......OK
create task begin................
task init begin...
ECMM.........................................................................RUN
cmd register begin...
cmd register end...
Recover configuration...
Error: PoE driver init fail.
或:
Recover configuration...
Error: Failed to initialize the PoE chips
打印信息中提示初始化PoE失敗,此問題有兩個原因引起:
l?? PoE電源的-53V無輸出,導致PoE功能初始化失敗。
l?? 設備內部的PoE模塊本身故障導致初始化失敗。
??????????????????????????????? 步驟 1???? 請先確認是否是插入了非PoE電源模塊,如果是,請更換配套的PoE電源。
??????????????????????????????? 步驟 2???? 如果已經是PoE電源,請嘗試交叉驗證電源模塊。
??????????????????????????????? 步驟 3???? 如果是內置的電源模塊,無法交叉驗證,建議聯系技術支持人員處理。
----結束
故障現象5
設備反復重啟,啟動時打印信息如下:
BIOS
Register Contents when exception occur:
sr = 0x0040FB7E?????? cause = 0x0000FB7E???????? epc = 0xBFC0FFFE
badVAdrs = 0xBFC0FFFE??? at = 0x0000FFFE????????? v0 = 0xBFC0FFFE
v1 = 0x0000FFFE????????? a0 = 0x0000FFFE????????? a1 = 0x0000FFFE
a2 = 0x8000FFFE????????? a3 = 0x0000FFFE????????? t0 = 0xB800FFFE
t1 = 0x0000FFFE????????? t2 = 0x0000FFFE????????? t3 = 0xFFFFFFFE
t4 = 0x0000FFFE?????? ???t5 = 0x0001FFFE????????? t6 = 0xFFFFFFFE
t7 = 0xBFC0FFFE????????? t8 = 0x0000FFFE????????? t9 = 0xBFC0FFFE
s0 = 0xFFFFFFFE????????? s1 = 0x0000FFFE????????? s2 = 0xF7FDFFFE
s3 = 0xFFDDFFFE????????? s4 = 0xFFFFFFFE????????? s5 = 0xFFFFFFFE
s6 = 0x0000FFFE????????? s7 = 0xFBFFFFFE????????? k0 = 0x0000FFFE
k1 = 0x5555FFFE????????? gp = 0xDFEDFFFE????????? ra = 0xBFC0FFFE
此問題可能為硬件故障或bootrom被破壞,可能的產生原因包括讀寫操作過程中電壓異常以及浪涌、靜電等,建議聯系技術支持人員處理。
故障現象6
設備反復重啟,啟動時打印信息有提示nand flash方面的報錯:
Press Ctrl+B to enter BOOTROM menu... 0
Auto-booting...
Loading[flash:/S5700LI-V200R001C00SPC300.cc].............
Assert at file: 'E://V2R1_Main_1//product//BSP//bsp//drv//flash//nand//nflash.c', Line: 620
?
Assert at file: 'E://V2R1_Main_1//product//BSP//bsp//drv//flash//nand//nflash.c', Line: 620
?
Assert at file: 'E://V2R1_Main_1//product//BSP//bsp//drv//flash//nand//nflash.c', Line: 620
?
Assert at file: 'E://V2R1_Main_1//product//BSP//bsp//drv//flash//nand//nflash.c', Line: 620
此問題為nand flash檢測到bit跳變,恢復步驟如下:
??????????????????????????????? 步驟 1???? 使用V200R003或之后軟件版本的bootrom擦除flash。
??????????????????????????????? 步驟 2???? 格式化flash。
???????? BootLoad Menu????????????????????????????????????????????
???? 1. Boot with default mode????????????????????????????????????
???? 2. Enter serial submenu???????????????? ??????????????????????
???? 3. Enter startup submenu?????????????????????????????????????
???? 4. Enter ethernet submenu????????????????????????????????????
???? 5. Enter filesystem submenu??????????????????????????????????
???? 6. Enter password submenu????????????????????????????????????
???? 7. Clear password for console user???????????????????????????
???? 8. Reboot????????????????????????????????????????????????????
??????????????
??? Enter your choice(1-8): 5??????????????????????????????????? ??
??????????????????????????????????????????????????????????????????
??????? FILESYSTEM SUBMENU????????????????????????????????????????
???? 1. Erase Flash???????????????????????????????????????????????
???? 2. Format Flash???????????????????????????? ?????????????????
??????????????????????????????? 步驟 3???? 重新加載匹配該bootrom的大包文件。
----結束
故障現象7
設備反復重啟,啟動時打印信息提示獲取不到板類型:
BIOS LOADING ...?????????????????????????????????????????????????????
Can not get board information by GPIO, Please Check!?????????????????
Don't support board type(0x0)!???????????????????????? ??????????
Copyright (c) 2008-2010 HUAWEI TECH CO., LTD.????????????????????????
(Ver128, Aug 24 2010, 21:58:24)??????????????????????????????????????
Press Ctrl+B to enter BOOTROM menu ...??????????????????????????????
Auto-booting...????????????????? ?????????????????????????????????????
Please confirm app file typeID[0x0]!????????????????????????????????
Invalid package file!????????????????????????????????????????????????
Auto-booting failed!???????????????????????????????????????????????
Auto-booting with last time startup file...??????????????????????????
Last time startup file is the same as current startup file!??????? ?
Seeking a VRP software in flash file-system...??????????????????????
Now, Current startup file is flash:/S2300-V100R005C01SPC100.cc???????
Please confirm app file typeID[0x0]!?????????????????????????????????
Invalid package file!???????????????????? ????????????????????????????
Auto boot failed!????????????????????????????????????????????????????
Auto-booting failed!????????????????????????????????????????????????
Reboot...?????????????????????????????????????????????????????????
BIOS LOADING ...? ???????????????????????????????????????????????????
Can not get board information by GPIO, Please Check!???????????????
Don't support board type(0x0)!??????????????????????????????????????
Copyright (c) 2008-2010 HUAWEI TECH CO., LTD.??????????????????? ?????
(Ver128, Aug 24 2010, 21:58:24)
此問題大部分是由非認證光模塊導致IIC總線掛死,導致啟動時掛在該總線上的板類型信息獲取不到而重啟,請拔出所有非認證光模塊后再嘗試啟動。並建議更換華為認證光模塊。
故障現象8
設備反復重啟,啟動時打印信息提示大包文件CRC校驗錯誤:
Error: Loading error in CRC checksum. File CRC is 0x1a20, calculated CRC is 0xc173
Error: Invalid package file
此問題大部分是大包文件被破壞導致的,比如寫flash時可能有突發掉電導致flash文件出錯,請重新加載大包文件恢復。
故障現象9
設備反復重啟,啟動時打印信息如下:
BIOS LOADING ...
Copyright (c) 2011-2012 HUAWEI TECH CO., LTD.
(Ver121, Jun 14 2012, 10:49:20)
Current flash Fs: DosFs
??????????????????????????????????????? ??????????????????????????????
flash:/? - Volume is OK
Press Ctrl+B to enter BOOTROM menu... 0
Auto-booting...
Loading[flash:/s5700li-v200r001c00spc300.cc]...................
Update Epld file ............................ None
Decompressing VRP software ..................
?Decoding error = 1
failed!
?
Auto-booting failed!
?
Auto-booting with last time startup file...
The last time startup file is not a .cc file!
?
Seeking a VRP software in flash file-system...
flash:/s5700li-v200r001c00spc300.cc [49+2]...................
Now, Current startup file is flash:/s5700li-v200r001c00spc300.cc
Update Epld file ............................ None
Decompressing VRP software ..................
Decoding error = 1
failed!
?
Auto boot failed!
?
Auto-booting failed!
Reboot...
此問題為DDR內存失效引起,建議聯系技術支持人員處理。
故障現象10
設備反復重啟,啟動時打印信息如下:
BIOS LOADING ...
Copyright (c) 2008-2011 HUAWEI TECH CO., LTD.
(Ver148, Jun 26 2012, 18:45:31)
?
Press Ctrl+B to enter BOOTROM menu ... 0
Auto-booting...
Decompressing Image file ... done
ERR
此問題為LSW初始化失敗、DDR內存失效或PCB損壞引起,建議聯系技術支持人員處理。
經驗總結
下表列出設備啟動打印信息中常見的異常關鍵字段,可以簡單判斷定位是否硬件問題。
表3-5 設備啟動打印信息中常見的異常關鍵字段
異常打印信息 |
含義 |
flash initialization failed |
FLASH初始化失敗。 |
DRV_Lsw_Init: DRV_Arch_Init Fail! |
LSW器件初始化失敗。 |
Initializing LSW ........................ faile |
LSW器件初始化失敗。 |
Drv_Lsw_Probe: Warning: Not All Chip Probed! |
LSW器件初始化失敗。 |
Some LSW chips are not detected |
LSW器件初始化失敗。 |
PoE driver init fail |
PoE初始化失敗。 |
Failed to initialize the PoE chips |
PoE初始化失敗。 |
Don't support board type(0x0)! |
獲取不到板類型。 |
Open %s failed |
校驗文件時打開失敗。 |
Interconnection threestep selftest Error |
外聯三步法測試失敗。 |
DDR SDRAM test ................. fail |
內存測試失敗。 |
DDR SDRAM test ................. Untest |
未做內存測試。 |
DDR SDRAM test ................. Invalid |
內存測試結果無效。 |
Loading error in CRC checksum |
大包文件CRC校驗錯誤。 |
Init flash update area error! |
重新初始化FLASH區域失敗。 |
Password is wrong, System will reboot... |
輸入密碼錯誤。 |
Data error in Flash description area! |
描述區數據錯誤。 |
Data error in Flash description backup area! |
備份區數據錯誤。 |
Auto-booting... |
不進入bootrom菜單而自動啟動大包,但打印時還什么都沒有做。之后開始按照前次啟動的信息進行尋找可啟動大包的操作。 |
Decompressing VRP software... |
進行大包的解壓操作,操作成功則繼續,操作失敗則重啟進行版本回退。 |
Auto-booting with last time startup file... |
上次自動啟動失敗,進行版本回退,使用最后一次成功啟動的大包進行啟動。 |
Last time startup file is the same as current startup file |
最后一次成功啟動的大包與配置的自動啟動大包相同。不使用此大包進行版本回退。自動找尋大包進行啟動。 |
Seeking a VRP software in flash file-system... |
開始自動找尋可啟動的大包。 |
Auto-booting failed! |
自動啟動失敗。 |
VFS_FLASH_INIT failed |
初始化FLASH文件系統失敗。 |
haven‘t %s device |
獲取FLASH存儲設備的索引號失敗。 |
Can not open Flash file: %s |
打開文件失敗。 |
The last time startup file is not a .cc file! |
上次啟動文件類型不對。 |
Can not find any file in flash file-system! |
FLASH中沒有文件。 |
%s is not a valid startup file! |
尋找到的文件不是有效的大包文件。 |
There is not other valid startup file in flash file-system! |
無法找到有效的啟動文件。 |
4 框式交換機單板復位故障
4.1 所有單板均復位
4.1.1 故障診斷流程
框式交換機是分布式系統,各塊單板由獨立的系統構成。接口板之間獨立運行互不影響,接口板由主用主控板統一管理控制。如果主控板故障會導致接口板復位,但框式交換機采用兩塊主控板備份機制,一般情況下主用主控板故障會自動切換到備用主控板,而原先的主控板自動復位之后成為新的備用主控板,所以雙主控情況下一塊主控板復位一般不會導致整機復位。
圖4-1 所有單板均復位故障診斷流程圖

?
4.1.2 故障診斷步驟及解決措施
??????????????????????????????? 步驟 1???? 通過display device命令,查看重啟設備主控板的個數。
<HUAWEI> display device
S7712's Device status:
Slot? Sub Type ????????Online??? Power????? Register?????? Status???? Role
-------------------------------------------------------------------------------
3???? -?? -??????????? Present?? PowerOff?? Unregistered?? -????????? NA
4???? -?? ES0D0G48TA00 Present?? PowerOn??? Registered???? Normal???? NA
6???? -?? ES0D0X4UXC00 Present?? PowerOn??? Registered???? Normal???? NA
9???? -?? ES0D0F48TC00 Present?? PowerOn??? Registered???? Normal???? NA
10??? -?? ES0D0G24SC00 Present?? PowerOn??? Registered???? Normal???? NA
13??? -?? -??????????? Present?? PowerOn??? Unregistered?? -????????? Slave
14??? -?? ES0D00SRUA00 Present?? PowerOn??? Registered???? Normal???? Master
PWR1? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA
CMU1? -?? LE0DCMUA0000 Present?? PowerOn??? Registered???? Normal???? Master
FAN1? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA
FAN2? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA
FAN3? -?? -??????????? Present?? PowerOn??? Registered?? ??Normal???? NA
FAN4? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA?
??????????????????????????????? 步驟 2???? 如果設備是單主控,主控板復位后會造成所有業務板一起復位,主控板復位的診斷方法可參考4.2 單一單板復位。
??????????????????????????????? 步驟 3???? 如果設備是雙主控,一般是由供電問題引起的整機復位。
首先判斷是否由外部供電原因引起的復位。
根據記錄的reboot time(使用display logbuffer命令查看設備的復位記錄),確認用戶電網該時間段有沒有突發掉電的情況,主要包括以下幾個方面:
l?? 是否人為操作導致的設備下電。
l?? 如果是UPS供電,查看UPS的日志,在該時間段是否有異常記錄。
l?? 確認同一個機櫃/同一個供電的網絡內其他設備有沒有過掉電。
l?? 該時間段是否有大功率設備接入導致供電不足的情況。
l?? 排查是否有線路老化、接觸不牢導致掉電的情況。
l?? 使用萬用表測量輸入電壓是否正常。
如果排查存在異常,按照排查出的具體原因解決外部供電的問題。
??????????????????????????????? 步驟 4???? 如果確認外部電網沒有問題,通過display alarm all查看設備自身的電源模塊是否存在告警。
常見的電源告警信息有:
l?? 當信息中包含Power is invalid for not support時,表示設備插入了不兼容的電源。
l?? 當對於同一電源,同時出現PWR_LACK和SWITCH_STAT傳感器告警時,表示電源在位但是沒有接電源線或電源開關沒開。
l?? 如果單獨出現PWR_FAULT傳感器告警,則可能是因為電源風扇故障、輸出過壓、外部短路、無輸出故障、沒有電壓輸入等。
??????????????????????????????? 步驟 5???? 在客戶允許的情況下,可以嘗試更換電源槽位、交叉驗證電源模塊等手段確認是否電源模塊自身故障。
??????????????????????????????? 步驟 6???? 如果排除自身電源模塊的問題,請4.2.2.6 聯系技術支持人員。
----結束
4.2 單一單板復位
4.2.1 故障診斷流程
圖4-2 單一單板復位故障診斷流程圖

?
4.2.2 故障診斷步驟及解決措施
4.2.2.1 查看交換機的類型和版本信息
??????????????????????????????? 步驟 1???? 通過display device命令,查看交換機的型號及各部件的狀態信息。
<HUAWEI> display device
S9706's Device status:??????????????????????????????????????????????????????????
Slot? Sub Type???????? Online??? Power????? Register?????? Status???? Role??????
-------------------------------------------------------------------------------?
1???? -?? EH1D2X12SSA0 Present?? PowerOn??? Registered???? Normal???? NA????????
4???? -?? -??????????? Present?? PowerOn??? Unregistered?? -????????? NA????????
7???? -?? EH1D2SRUDC00 Present?? PowerOn??? Registered???? Normal???? Master????
PWR1? -?? -??????????? Present?? -????????? Unregistered?? -????????? NA????????
PWR2? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA????????
CMU1? -?? EH1D200CMU00 Present?? PowerOn??? Registered???? Normal???? Master????
FAN1? -? ?-??????????? Present?? PowerOn??? Registered???? Normal???? NA????????
FAN2? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA???????
通過顯示信息可看出設備型號為S9706以及單板、電源和風扇的狀態信息。
??????????????????????????????? 步驟 2???? 通過display version命令,查看交換機的版本信息。
<HUAWEI> display version?
Huawei Versatile Routing Platform Software??????????????????????????????????????
VRP (R) software, Version 5.160 (S9700 V200R008C00SPC300)????????????????????? ??
Copyright (C) 2000-2016 HUAWEI TECH CO., LTD????????????????????????????????????
Quidway S9706 Terabit Routing Switch uptime is 0 week, 3 days, 18 hours, 31 minu
tes?????????????????????????????????????????????????????????????????????????????
BKP 0 version information:??????????????????????????????????????????????????????
1. PCB????? Version? : LE02BAKK VER.B???????????????????????????????????????????
2. Support? PoE????? : No???????????????????????????????????????????????????????
3. Board??? Type ????: EH1BS9706E00?????????????????????????????????????????????
4. MPU Slot Quantity : 2????????????????????????????????????????????????????????
5. LPU Slot Quantity : 6????????????????????????????????????????????????????????
?????????????????????????? ??????????????????????????????????????????????????????
MPU 7(Master) : uptime is 0 week, 3 days, 18 hours, 31 minutes??????????????????
SDRAM Memory Size??? : 2048??? M bytes??????????????????????????????????????????
Flash Memory Size??? : 128???? M bytes??????????????????????????????????????????
NVRAM Memory Size??? : 512???? K bytes??????????????????????????????????????????
CF Card1 Memory Size : 479???? M bytes??????????????????????????????????????????
MPU version information :????????????????????? ??????????????????????????????????
1. PCB????? Version? : LE02SRUD0 VER.D??????????????????????????????????????????
2. MAB????? Version? : 1????????????????????????????????????????????????????????
3. Board??? Type???? : EH1D2SRUDC00????????????????????? ????????????????????????
4. CPLD0??? Version? : 1411.2411????????????????????????????????????????????????
5. BootROM? Version? : 0209.00dc????????????????????????????????????????????????
6. BootLoad Version? : 0209.00fa?????????????????????????????????? ??????????????
7. FPGA???? Version? : 1100.0800?
通過顯示信息可看出設備的軟件版本為V200R008C00。
----結束
4.2.2.2 查看單板的復位原因
??????????????????????????????? 步驟 1???? 通過display reset-reason命令,查看所有單板的復位信息。
<HUAWEI> display reset-reason
The LPU frame[1] board[1] has no reset records.
The LPU frame[1] board[2] has no reset records.
The LPU frame[1] board[3]'s reset total 1, detailed information:
--? 1. 2012/03/13?? 19:58:15, Reset No.: 1
?????? Reason: Check mod infomation fail
The MPU frame[1] board[4] has no reset records.
The MPU frame[1] board[5]'s reset total 967, detailed information:
--? 1. 2012/03/20?? 13:07:52, Reset No.: 967
?????? Reason: Warm reset board for no receiving message in a long time
--? 2. 2012/03/20?? 12:57:52, Reset No.: 966
?????? Reason: Warm reset board for no receiving message in a long time
--? 3. 2012/03/20?? 12:47:52, Reset No.: 965
?????? Reason: Warm reset board for no receiving message in a long time
--? 4. 2012/03/20?? 12:37:52, Reset No.: 964
?????? Reason: Warm reset board for no receiving message in a long time
--? 5. 2012/03/20?? 12:27:52, Reset No.: 963
?????? Reason: Warm reset board for no receiving message in a long time
也可通過display reset-reason solt ID命令,查看具體槽位上單板的復位信息,ID表示具體槽位號。
表4-1 display reset-reason命令輸出信息描述
項目 |
描述 |
LPU/MPU |
業務接口板/主控板 |
frame |
單板所在框號 |
board |
單板所在槽位號 |
reset total |
復位次數 |
detailed information |
復位信息 |
Reset No. |
復位編號 |
Reason |
復位原因 |
?
??????????????????????????????? 步驟 2???? 分析查詢到的復位原因並執行相應措施。display reboot-info查詢到的復位原因如表4-2所示。
表4-2 復位原因及處理方法
復位原因 |
處理方法 |
用戶相關 |
Reset by user command |
命令行或網管復位 |
確認擁有復位權限的用戶是否進行了復位操作 |
Power off by user command |
VRP reset selfboard because of command |
Reset board by vrp cmd |
Reset board by snmp |
Reset for rollback |
The demo time of license is overtime |
臨時license到期后復位 |
請檢查並聯系華為獲取license |
加載相關 |
Reset for load |
升級軟件的時候,接口板加載軟件后復位 |
無,屬於正常復位 |
Reset for lpu resource-mode disaccord with mpu |
接口板配置的資源模式和主控板不符合后復位 |
無,屬於正常復位 |
Reset for the LPU patch file or module does not match that on the MPU |
接口板配置的補丁文件或插件和主控板不符合后復位 |
等待單板注冊上之后,再進行加載/刪除補丁、加載/刪除插件的操作 |
Reset for initializing the board's status by IFNET |
主備倒換后,重新配置單板接口狀態 |
l? 主備倒換時接口板配置未恢復,屬於板間無法通訊 l? 主備倒換時接口板正常工作,屬於正常情況 |
Reset slave board for memsize too little |
備板內存小於主控板內存 |
檢查備板內存大小,如果小於主控板內存需要更換 |
Reset for slave board's card statement disaccord with master's |
兩塊主控板只有一塊裝有FSU等子卡 |
請保證兩塊主控都配置了相同的子卡或者都沒有配置子卡 |
Reset for patch load |
補丁加載后復位 |
接口板啟動過程中有補丁操作,屬於正常情況 |
Reset for patch get state fail |
補丁加載失敗復位 |
l? 啟動過程中出現一兩次屬於正常情況 l? 多次出現請4.2.2.6 聯系技術支持人員 |
Reset for patch load file fail |
Reset for patch synchronize file fail |
Reset for patch state compare fail |
軟件異常相關 |
VRP reset selfboard because of find deadloop |
檢測到死循環復位 |
通過查看告警及日志進一步定位 |
VRP reset selfboard because of find exception |
檢測到軟件異常復位 |
4.2.2.6 聯系技術支持人員 |
Board reset by VRP for schedule |
擁塞導致異常復位 |
通過查看告警及日志進一步定位 |
VRP reset selfboard because of no memory |
內存耗盡復位 |
l? 檢查內存是否過高 l? 通過查看告警及日志進一步定位 |
Reset for memory use out |
設備管理相關 |
Reset for no receiving mpu's heart |
接口板40秒未收到主控板心跳報文后復位 |
單板無心跳復位,排查單板未插緊導致的單板復位 |
Reset for no heart |
主控板30秒未收到單板心跳報文,復位接口板 |
Reset for not receiving register ack from mpu |
接口板注冊20次但無法收到主控板注冊回應報文后復位 |
板間通訊存在故障,排查單板未插緊導致的單板復位 |
Reset for state not stable |
主控板收到接口板報文時斷時續,復位接口板 |
Warm reset board for no register in a long time |
檢測到單板30分鍾內都未成功注冊 |
Warm reset board for no receiving message in a long time |
主控板10分鍾都沒有收到接口板的任何報文 |
Cold reset board for no receiving message in a long time |
主控板20分鍾都沒有收到接口板的任何報文 |
Cold reset board for CPU is not active |
主控板檢測到單板CPU不工作 |
Power off the board because of reset three times continuously |
單板在啟動過程中復位了3次,下電復位單板 |
為防止熱啟動不成功,3次熱啟動之后下電復位一次 |
Reset for unregister but receive heartbeat info |
單板未注冊,但是收到了該單板心跳報文 |
通過查看告警及日志進一步定位 |
Reset for slave board class disaccord with mpu |
主備板板類型不一致 |
查詢主用和備用主控板的類型,更換單板保持一致 |
Reset for lpu or slave version disaccord with mpu |
單板啟動版本和主控板不一致 |
1、備板復位:確認主備之間版本,目前V1R2和V1R3無法自動同步版本會引發復位 2、其它單板復位:4.2.2.6 聯系技術支持人員 |
Reset for no receiving master cpu's heart |
VASP板CPU的主核60秒未收到副核的心跳 |
4.2.2.6 聯系技術支持人員 |
硬件器件相關 |
Reset for selftest fail |
單板自檢失敗 |
器件自檢失敗,嘗試拔插單板和更換槽位。如不能解決可判斷為單板故障。 |
Reset for CPLD self-test fail |
CPLD自檢失敗 |
Reset selfboard because of initialize fsu fail |
初始化FSU失敗 |
reset for fpga load failed |
FPGA加載失敗 |
Reset for fpga in abnormal state |
FPGA狀態不正常 |
Reset for lanswitch chip parity error |
lanswitch電路校驗錯誤 |
Reset for FSU card type mismatch |
FSU子卡不匹配 |
更換與框類型相匹配的FSU子卡,如不能解決請4.2.2.6 聯系技術支持人員 |
Board reset by ISIS for purging LSP error |
清除LSP異常 |
l? 啟動過程中出現一兩次屬正常情況。 l? 多次出現請4.2.2.6 聯系技術支持人員 |
集群相關 |
Reset for frame combine |
集群合並復位 |
正常情況 |
Reset for frame split |
集群***復位 |
Reset for fsp |
集群復位 |
Reset for one frame register, but the board is not register |
設備注冊時單板未注冊 |
Reset for slave to master in slave frame, but self is not register |
在備設備上,備升主,單板還未注冊 |
Reset for slave to master in master frame, but self is not register |
在主設備上,備升主,單板還未注冊 |
Reset by switchover command from system master chassis |
命令行集群倒換復位 |
Reset by command from other chassis |
其他集群單板下發復位命令 |
Reset board after syn version |
版本同步后復位 |
Reset board for Peer frame is in CSS force master status |
對框設置了強制主而復位 |
Reset for fpga state disaccord with system master |
表示主控板為SRUC的設備與主控板為SRUD的設備組建集群時,主控板為SRUD的設備使能了主控板硬件驅動引擎。 |
需要先執行命令undo detect-engine enable去使能主控板硬件驅動引擎(去使能后需要重啟生效),然后再進行集群配置。 |
?
----結束
4.2.2.3 查看告警
查看告警方法
當設備發生故障,或設備所處環境超出正常工作要求時,將導致系統無法正常工作,系統能夠根據不同類型的故障產生告警信息。
告警信息可以通過如下兩種方式查看到:
l?? 通過網絡管理系統界面(如esight網管)直接查看告警信息。
l?? 通過display trapbuffer [ size value ]命令在命令行終端界面查看設備上告警顯示區內的告警信息。
告警顯示區內的信息與指定的告警顯示條目,即value的大小有關。如果當前告警顯示區內信息數少於用戶指定的顯示條目,則在終端界面上顯示實際條數的告警信息。
<HUAWEI> display trapbuffer
Trapping buffer configuration and contents : enabled????????????????????????????
Allowed max buffer size : 1024??????????????????????????????????????????????????
Actual buffer size : 256???????????????????????????????? ????????????????????????
Channel number : 3 , Channel name : trapbuffer??????????????????????????????????
Dropped messages : 0????????????????????????????????????????????????????????????
Overwritten messages : 6248??????????????????????????????????????? ??????????????
Current messages : 256??????????????????????????????????????????????
#Sep 19 2012 04:38:03+08:00 HUAWEI DS/4/DATASYNC_CFGCHANGE:OID 1.3.6.1.4.1.2011
.5.25.191.3.1 configurations have been changed. The current change number is 8,?
the change loop count is 0, and the maximum number of records is 4095.??????????
#Sep 19 2012 04:37:39+08:00 HUAWEI LINE/5/VTYUSERLOGIN:OID 1.3.6.1.4.1.2011.5.2
5.207.2.2 A user login. (UserIndex=34, UserName=VTY, UserIP=10.135.18.114, UserC
hannel=VTY0)?????? ??????????????????????????????????????????????????
也可使用如下命令來查看設備的具體告警信息:
l?? 執行命令display alarm all,查看所有槽位的告警信息。
l?? 執行命令display alarm active,查看設備啟動后當前仍然未恢復的告警信息。
l?? 執行命令display alarm history,查看設備啟動后記錄的歷史告警信息。
與單板復位相關的常見告警及處理方法
表4-3 與設備重啟相關的常見告警及處理方法










建議采用如下技巧幫助您更快速的搜索到准確的告警:
l? 由於“告警ID”唯一標識一條告警,建議您通過“告警ID”在《告警處理》手冊中進行搜索,從而快速查找到對應告警的解釋及處理步驟。
l? 對於一條ID相同的告警,如果觸發原因不同,輸出信息中通過攜帶不同的錯誤碼(如BaseTrapProbableCause)來標識,這時,請通過錯誤碼在《告警處理》手冊中進一步搜索。
l? 也可以通過信息查詢助手工具直接查詢相關告警信息。
查詢時請勿攜帶可變信息進行搜索,例如告警產生時間、接口編號、進程編號、設備命名等。
4.2.2.4 查看設備外觀和環境
如果單板復位原因為單板與主控板之間通信異常,或者查看的告警中發現電源、風扇或溫度類的告警,可通過查看設備外觀和外部環境來排查。
排查單板未插緊導致的單板復位
如果單板復位原因為無心跳復位或與主控板間通信異常,可能原因是單板未插緊導致。
??????????????????????????????? 步驟 1???? 現場查看復位單板和主控板是否安裝到位。
??????????????????????????????? 步驟 2???? 拔出復位單板,查看單板的連接器是否存在倒針。
??????????????????????????????? 步驟 3???? 如果以上兩點均排除,可將單板安裝到其它槽位或使用新單板來做交叉驗證,排查是單板本身故障或機框故障。
??????????????????????????????? 步驟 4???? 如果仍無法排除故障,請4.2.2.6 聯系技術支持人員。
----結束
排查電源異常導致的單板復位
??????????????????????????????? 步驟 1???? 根據記錄的reboot time,確認用戶電網該時間段有沒有突發掉電的情況,主要包括以下幾個方面:
l?? 是否人為操作導致的設備下電。
l?? 如果是UPS供電,查看UPS的日志,在該時間段是否有異常記錄。
l?? 同一個機櫃/同一個供電的網絡內其他設備有沒有過掉電。
l?? 該時間段是否有大功率設備接入導致供電不足的情況。
l?? 排查是否有線路老化、接觸不牢導致掉電的情況。
l?? 使用萬用表測量輸入電壓是否正常。
如果排查存在異常,按照排查的具體原因解決外部供電的問題。
??????????????????????????????? 步驟 2???? 如果確認外部電網沒有問題,排查下交換機自身電源是否異常。檢查電源模塊是否被拔出或安裝牢固。在客戶允許的情況下,可以嘗試更換電源槽位、交叉驗證電源模塊等手段確認是否電源模塊自身故障。
??????????????????????????????? 步驟 3???? 如果交叉驗證后故障跟隨設備,請4.2.2.6 聯系技術支持人員。
----結束
排查溫度或風扇異常導致的單板復位
??????????????????????????????? 步驟 1???? 查看設備的工作環境溫度是否正常(一般設備的工作環境溫度為0°C~45°C),如果溫度過高,相應降低機房的環境溫度。
??????????????????????????????? 步驟 2???? 排除設備散熱系統的異常。查看設備的風道、風扇和防塵網,保證:
l?? 設備的進風口(前側和左側)、出風口(后側)無遮擋,有側門將設備相互隔開。如果有阻擋,清除阻擋后觀察設備的溫度是否恢復正常。
l?? 風扇運轉正常。查看風扇模塊是否被拔出或安裝牢固,檢查風扇模塊的出風口是否有氣流排出。
l?? 防塵網狀態正常,不會造成空氣無法進入設備的情況。如果防塵網有阻塞請清洗或更換防塵網。
??????????????????????????????? 步驟 3???? 如果排查為風扇故障,可通過更換風扇模塊解決。
??????????????????????????????? 步驟 4???? 上述步驟完成后仍無法定位,請3.1.2.6 聯系技術支持人員。
----結束
4.2.2.5 查看日志
如果通過以上步驟仍無法定位設備重啟的原因,可通過查看設備日志進一步分析。
查看日志方法
設備在運行過程中,主機軟件中的日志模塊會對運行中的各種情況進行記錄,從而形成日志信息。日志信息主要用於查看設備的運行狀態、分析網絡的狀況以及定位問題發生的原因,為系統進行診斷和維護提供依據。
可以通過控制口或telnet方式登錄到設備,使用命令display logbuffer查看保存在日志緩存中的內容,還可以在設備上對日志信息進行保存,使用syslog協議將日志信息輸出到日志服務器。
# 使用命令display logbuffer查看Log緩沖區的所有日志信息。
<HUAWEI> display logbuffer
Logging buffer configuration and contents : enabled??????????????????
Allowed max buffer size : 1024???????????????????????????????????????
Actual buffer size : 512???????????????????????????????????? ?????????
Channel number : 4 , Channel name : logbuffer????????????????????????
Dropped messages : 0?????????????????????????????????????????????????
Overwritten messages : 0?????????????????????????????????????????????
Current messages : 43??????????? ?????????????????????????????????????
?
Oct 16 2013 06:06:48 HUAWEI %%01VFS/4/DISKSPACE_NOT_ENOUGH(l)[3]: Disk space is insufficient. The system begins to delete unused log files.?
Oct 10 2013 19:06:48 HUAWEI %%01VFS/4/DISKSPACE_NOT_ENOUGH(l)[4]: Disk space is insufficient. The system begins to delete unused log files
? ---- More----
與設備重啟相關的常見日志及處理方法
表4-4 與設備重啟相關的常見日志及處理方法
信息摘要 |
日志含義 |
可能原因 |
處理方法 |
ALML/4/48V_CHECK_FAULT |
傳感器檢測到單板兩路48V電源告警。 |
單板的電源供電線路出現問題,單板無法上電。 |
l? 確認電源是否在位。 l? 如果電源在位,單板無法上電,請4.2.2.6 聯系技術支持人員。 |
ALML/0/BRD_PWOFF |
風扇故障導致單板溫度過高而掉電。 |
有可能風扇被拔出或者風扇故障停轉。 |
l? 執行display temperature all命令,通過“Status”字段查看設備的溫度是否正常,通過“Temperature.(C)”字段查看設備各部件當前溫度值。如果“Status”字段顯示為minor,則執行下一步。 l? 排除設備散熱系統的異常。參考排查溫度或風扇異常導致的單板復位。 l? 經過排除后單板溫度仍然過高,請重新插拔單板,驗證單板能否注冊,如果不能注冊,請4.2.2.6 聯系技術支持人員。 |
ALML/4/ENTPOWEROFF |
單板被下電。 |
l? 通過命令行power off slot slot-id將單板下電。 l? 系統檢測到電源功率不足,將單板下電。 |
如果是電源問題,參考排查電源異常導致的單板復位。 |
ALML/4/ENTRESET |
單板被復位。 |
l? 命令行復位單板。 l? 系統運行故障。復位原因可查看日志顯示信息中的reason字段。 |
如果是非命令行復位,請觀察日志描述的復位原因,4.2.2.6 聯系技術支持人員。 |
ALML/4/ENT_PULL_OUT |
單板或者子卡被拔出。 |
l? 人為拔出單板或者子卡。 l? 單板或者子卡接口與插槽對接松動。 |
l? 如果是人為拔出操作,則不需要處理。 l? 如果是接口對接發生松動,則重新插入單板或者子卡。 |
ALML/4/HSB_SWITCH_CAUSE |
記錄主用主控板復位信息。 |
主控板復位的原因描述。具體情況如下: l? Unknown switch reason:未知原因 l? VRP command force:命令行強制復位。 l? master MPU is no memory:主用主控板內存不足。 l? VRP find task deadloop:任務死循環。 l? Batch was not over:任務異常。 l? Master switch to slave Interrupt:主備倒換導致主用主控板復位。 l? Ecm Channel was faulty:以太網管理通道倒換(ECM)通道故障。 l? Monitor bus communication Interrupt:CANbus通信中斷。 l? MPU board was pulled out:主控板被拔出。 |
l? 請確認是否有人為插拔主控板。 l? 請使用display current-configuration命令查看是否有“slave switchover”命令確強制主備倒換。 l? 4.2.2.6 聯系技術支持人員 |
ALML/4/MASTER_TO_SLAVE |
主用主控板變成備用主控板。 |
通過命令行slave switchover進行主備切換。(如果主用主控板因為異常重啟變成備用,則不會上報這條日志。) |
通過命令行進行主備切換,不需要處理。 |
ALML/4/POWERSUPPLY_OFF |
電源下電。 |
l? 人為將電源下電。 l? 電源異常不供電。 |
排查電源異常導致的單板復位 |
ALML/4/PWRFANABSENT |
風扇不在位。 |
風扇不在位。 |
排查溫度或風扇異常導致的單板復位 |
ALML/4/TEMP_UPPER |
溫度傳感器監控到溫度超過上限值。可能是排風不暢,防塵網堵塞,風扇故障,空閑槽位未插入假面板等原因引起的。 |
l? 設備排風不暢,導致熱量散發不暢。 l? 防塵網堵塞。 l? 空閑槽位未插入假面板。 l? 設備所處環境溫度過高。 l? 設備的風扇數量不足。 l? 設備的風扇發生故障。 |
排查溫度或風扇異常導致的單板復位 |
FMEA/6/AVS_ABNORMAL |
單板上的AVS電源異常。 |
單板硬件故障。 |
更換單板。 |
MAD/4/CONFLICT_DETECT |
發現多主場景。 |
集群鏈路故障,出現多主。 |
修復集群鏈路故障。 |
MAD/4/MEMBER_LOST |
檢測集群鄰居失敗,集群***。 |
l? 集群鏈路故障。 l? 集群設備故障。 |
l? 修復集群設備故障。 l? 修復集群鏈路故障。 |
?

建議采用如下技巧幫助您更快速的搜索到准確的日志:
l? 由於“信息摘要”唯一標識一條日志,建議您通過“信息摘要”在《日志參考》手冊中進行搜索,從而快速查找到對應日志的解釋及處理步驟。
l? 使用《日志參考》手冊時,請勿攜帶可變信息進行搜索,例如日志產生時間、接口編號、進程編號、設備命名等。
舉例如下:
對於出現的日志:Apr 27 2014 07:45:35 HUAWEI %%01SHELL/4/LOGIN_FAIL_FOR_INPUT_TIMEOUT(s)[6]:Failed to log in due to timeout.(Ip=10.135.19.157, UserNa me=**, Times=1, AccessType=TELNET, VpnName=)。使用信息摘要“LOGIN_FAIL_FOR_INPUT_TIMEOUT”在《日志參考》手冊中即可搜索到對應的解釋為“用戶由於輸入用戶名或密碼超時導致登錄失敗”。
4.2.2.6 聯系技術支持人員
如果經過以上步驟仍無法定位單板復位原因,請收集相關故障信息,並將其提交給代理商或華為技術有限公司進行定位和處理。
需要收集的故障信息如下:
?發生故障的時間、故障點的網絡拓撲結構(例如故障設備連接的上下游設備、所處的網絡位置)、導致故障的操作、故障后已采取的措施和結果、故障現象和影響的業務范圍等信息。
?發生故障的設備的名稱、版本、當前配置、接口信息等,可使用一鍵信息采集。
?發生故障時產生的日志信息。
?如果單板復位后無法正常注冊,還需要收集在啟動過程中的串口打印信息。
一鍵信息采集
通過display diagnostic-information命令可以獲取設備的診斷信息,它集合了多條常用display命令的輸出結果,包括設備的啟動配置、當前配置、接口信息、時間、系統版本等等,是一鍵采集的好方法。
設備提供了display diagnostic-information [ file-name ]命令,該命令可以將設備目前運行的診斷信息輸出到屏幕或txt文件,如果不加file-name參數,就是將診斷信息輸出到屏幕;如果加file-name參數,就是將診斷信息輸出到以file-name命名的txt文件,包含啟動配置、當前配置、接口信息、時間、系統版本等大量有用信息。建議將診斷信息輸出到txt文件。該命令使用方法如下:
<HUAWEI> display diagnostic-information dia-info.txt
? This operation will take several minutes, please wait.........................
Info: The diagnostic information was saved to the device successfully.
txt文件的缺省保存路徑為cfcard:/,用戶視圖下使用dir命令可以確認文件是否正確生成。
采用直接在屏幕的顯示方式,如命令輸出的診斷信息較長,可以通過按Ctrl+C停止。
另外,該命令主要用於問題定位,搜集系統診斷信息,搜集時可能會影響系統的性能(例如CPU占用率升高等)。因此,在系統正常運行時不建議執行該命令。並且,嚴禁在連接到設備的多個終端上同時執行該命令,否則可能造成設備的CPU占用率明顯增高,導致設備性能下降。
目前常用的終端配置軟件都提供了將顯示信息輸出到文件的功能,如Windows自帶的超級終端:“傳送 > 捕獲文字”,輸入保存的文件名后點擊“啟動”即可。完成配置后,直接執行display diagnostic-information命令,則會將所有診斷信息直接輸出到顯示終端屏幕上,並自動以文件形式保存到配置終端指定的路徑下。
獲取日志文件
設備支持日志和告警信息保存到日志文件中,用戶可通過如下操作步驟獲取日志文件中的日志和告警信息:
1.???????? 執行命令save logfile,手動將日志文件緩存區中的信息保存到日志文件中。
2.???????? 執行完上述命令后,將cfcard:/logfile/下的文件通過FTP/TFTP傳輸到終端(PC)上。如果無法使用FTP/TFTP傳輸,可以通過more命令查看,如在用戶視圖下執行more logfile/log.log。

l? logfile文件夾下可能會有大量的日志文件,一般只需要采集故障發生時間點的日志文件。
l? 如果出現的故障涉及到備用主控板,備用主控板保存的日志文件也需要采集,備用主控板的日志文件保存在slave#cfcard:/logfile/下。
l? 如果涉及堆疊系統***和復位等故障,需要收集所有相關成員交換機中的日志文件。
4.3 單板復位故障的典型案例
4.3.1 設備整機復位
現象描述
S9312設備一天內出現2次整機異常復位。
Mar 20 2014 13:54:27 7F-S9312 SNMP/4/COLDSTART:OID 1.3.6.1.6.3.1.1.5.1 coldStart.
Mar 20 2014 17:06:39 7F-S9312 SNMP/4/COLDSTART:OID 1.3.6.1.6.3.1.1.5.1 coldStart.
原因分析
??????????????????????????????? 步驟 1???? 使用display device命令查看設備信息。
S9312's Device status:
Slot? Sub Type???????? Online??? Power????? Register?????? Alarm????? Primary
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
1???? -?? LE0D0VAMPA00 Present?? PowerOn??? Registered???? Normal???? NA????
2???? -?? LE0DG48CEAT0 Present?? PowerOn??? Registered???? Normal???? NA????
4???? -?? LE0DG48CEAT0 Present?? PowerOn??? Registered???? Normal???? NA????
6???? -?? LE0DG48CEAT0 Present?? PowerOn??? Registered???? Normal???? NA????
8???? -?? LE0DG48CEAT0 Present?? PowerOn??? Registered???? Normal???? NA????
10??? -?? LE0DG48CEAT0 Present?? PowerOn??? Registered???? Normal???? NA????
13??? -?? LE0MSRUA???? Present?? PowerOn??? Registered???? Normal???? Master
14??? -?? LE0MSRUA???? Present?? PowerOn??? Registered???? Normal???? Slave?
PWR1? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA????
PWR2? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA????
CMU1? -?? LE0DCMUA0000 Present?? PowerOn??? Registered???? Normal???? Master
FAN1? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA????
FAN2? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA????
FAN3? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA????
FAN4? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA???
設備使用雙主控和雙電源模塊,所有模塊狀態正常。
??????????????????????????????? 步驟 2???? 復位記錄中的Cordstart為冷啟動,即下電啟動。設備使用雙電源模塊,兩個電源模塊同時故障導致設備復位的可能很小,查看告警記錄在復位時間之前也沒有看到任何電源相關的告警。
??????????????????????????????? 步驟 3???? 經查看電源模塊的外觀正常,安裝牢固,電源線的連接均正常。
??????????????????????????????? 步驟 4???? 排查外部供電原因,與客戶確認設備復位當天整個樓層出現過短路跳閘的情況,判斷為外部電網異常導致的設備下電復位。
----結束
處理建議
繼續觀察外部的供電情況和設備的運行情況。
總結經驗
如果框式交換機采用雙主控情況下出現整機復位,一般均由電源問題引起。可從外部供電和設備電源自身問題排查,同時結合日志信息中記錄的復位原因來定位。
4.3.2 備用主控板反復復位
現象描述
S9306的8號主控板槽位安裝新的備用主控板之后反復復位,之前該槽位主控板使用正常。
原因分析
??????????????????????????????? 步驟 1???? 使用display device命令查看設備信息。
<HUAWEI> display device
S9306's Device status:
Slot? Sub Type???? Online??? Power????? Register?????? Alarm????? Primary
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -?
1???? -?? G48TC??? Present?? PowerOn??? Registered???? Normal???? NA????
3???? -?? X2UXC??? Present?? PowerOn??? Registered???? Normal???? NA????
6???? -?? G48TC??? Present?? PowerOn??? Registered???? Normal???? NA????
7???? -?? SRUA???? Present?? PowerOn??? Registered???? Normal???? Master
8???? -?? -??????? Present?? PowerOn??? Unregistered?? -??????? ??Slave?
PWR1? -?? -??????? Present?? PowerOn??? Registered???? Normal???? NA????
PWR3? -?? -??????? Present?? PowerOn??? Registered???? Normal???? NA????
CMU1? -?? CMUA???? Present?? PowerOn??? Registered???? Normal???? Master
FAN1? -?? -??????? Present?? PowerOn??? Registered???? Normal???? NA????
FAN2? -?? -??????? Present?? PowerOn??? Registered???? Normal???? NA???
設備8號槽位的主控板顯示未注冊。
??????????????????????????????? 步驟 2???? 使用過display reset-reason命令,查看單板的復位信息。
<HUAWEI> display reset-reason
The LPU board[1] has no reset records.
The LPU board[2] has no reset records.
The LPU board[3] has no reset records.
The LPU board[4] has no reset records.
The LPU board[5] has no reset records.
The LPU board[6] has no reset records.
The SRU board[7] has no reset records.
The SRU board[8]'s reset total 19883, detailed information:
--? 1. 2014/01/26?? 16:23:55, Reset No.: 19883
?????? Reason: Warm reset board for no receiving message in a long time
--? 2. 2014/01/26?? 16:13:55, Reset No.: 19882
?????? Reason: Cold reset board for no receiving message in a long time
--? 3. 2014/01/26?? 16:03:55, Reset No.: 19881
?????? Reason: Warm reset board for no receiving message in a long time
--? 4. 2014/01/26?? 15:53:55, Reset No.: 19880
?????? Reason: Cold reset board for no receiving message in a long time
--? 5. 2014/01/26?? 15:43:55, Reset No.: 19879
?????? Reason: Warm reset board for no receiving message in a long time
復位信息為Cold reset board for no receiving message in a long time,原因是新安裝的備用主控板與主用主控板之間無法通信導致的復位。
??????????????????????????????? 步驟 3???? 因為之前該槽位單板使用正常,懷疑為新安裝的主控板故障,更換另一塊同型號主控板驗證。
??????????????????????????????? 步驟 4???? 使用另一塊主控板可以正常注冊,判斷為原備用主控板的通道存在故障。
----結束
處理建議
更換主控板,聯系技術支持人員將故障主控板返修。
4.3.3 業務板與備用主控板一起復位
現象描述
S9300測試業務突然中斷,經查看日志后發現備用主控板和業務板復位導致。
Dec8 2013 13:14:10 NewCallcenter-SW-2 %%01ALML/4/ENTRESET(l)[778]: LPU frame[1] board[1] is reset. The reason is: Warm reset board for no register in a long time.
Dec8 2013 13:14:10 NewCallcenter-SW-2 %%01ALML/4/PUBLISH_EVENT(l)[779]: Publish event. (Slot=1, Event ID=BOARD_RESET).
Dec8 2013 13:14:14 NewCallcenter-SW-2 ENTMIB/4/TRAP:OID 1.3.6.1.2.1.47.2.0.1 Entity MIB change.
Dec8 2013 13:25:10 NewCallcenter-SW-2 %%01ALML/4/ENTRESET(l)[780]: MPU frame[1] board[5] is reset.?
The reason is: Warm reset board for no receiving message in a long time.
Dec8 2013 13:25:10 NewCallcenter-SW-2 %%01ALML/4/PUBLISH_EVENT(l)[781]: Publish event. (Slot=5, Event ID=BOARD_RESET).
Dec8 2013 13:25:10 NewCallcenter-SW-2 %%01VFS/5/UNREGDEV_OK(l)[782]:Succeeded in unregistering the file system on device 5.
Dec8 2013 13:25:10 NewCallcenter-SW-2 %%01OSPF/6/RECV_SMB_DOWN_RM(l)[783]:OSPF backup receives slave mainboard Down event from RM. (SlaveHsbState=0)
Dec8 2013 13:25:14 NewCallcenter-SW-2 ENTMIB/4/TRAP:OID 1.3.6.1.2.1.47.2.0.1 Entity MIB change.
原因分析
??????????????????????????????? 步驟 1???? 使用display device命令查看設備信息。
<HUAWEI> display device
S9303's Device status:
Slot? Sub Type???????? Online??? Power????? Register?????? Alarm????? Primary
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
1???? -?? -??????????? Present?? PowerOn??? Unregistered?? -????????? NA????
?
4???? -?? LE0MMCUA???? Present?? PowerOn? ??Registered???? Normal???? Master
?
5???? -?? -??????????? Present?? PowerOn??? Unregistered?? -????????? Slave?
?
PWR1? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA????
?
PWR2? -?? -??????????? Present?? PowerOn??? Registered??? ?Normal???? NA????
?
FAN1? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA???
設備5號槽位的備用主控板和1號槽位的業務板均顯示為未注冊。
??????????????????????????????? 步驟 2???? 通過復位日志可看出復位原因是與主控板間通信異常,建議現場進行插拔驗證。
??????????????????????????????? 步驟 3???? 反復插拔1號槽位的業務板、更換安裝槽位后仍無法注冊。
??????????????????????????????? 步驟 4???? 觀察了業務板的連接器,並無倒針、生銹等情況。
??????????????????????????????? 步驟 5???? 保留1號槽位的業務板和5號槽位的備用主控板,拔出4號槽位的主用主控板,業務板和備用主控板均可以正常注冊。初步判斷為原主用主控板或4號槽位故障。
??????????????????????????????? 步驟 6???? 將原主用主控板和備用主控板互換槽位后,4號槽位單板可以注冊,原主用主控板安裝到5號槽位后無法注冊,排除4號槽位的問題,判斷為原主用主控板故障。
----結束
處理建議
更換主控板,聯系技術支持人員將故障主控板返修。
總結經驗
如果備用主控板和所有業務板都與主用主控板之間存在通信異常,可以初步判斷為主用主控板本身或所在的槽位存在故障,建議使用交叉驗證來排除。
4.3.4 Auto-booting關閉導致備用主控板反復復位
問現象描述
交換機備用主控板反復復位。
原因分析
??????????????????????????????? 步驟 1???? 使用命令display reset-reason檢查單板復位原因,發現為備用主控板和主用主控板無法通信,主用主控板主動復位備用主控板。
??????????????????????????????? 步驟 2???? 在無法正常啟動的主控板上連接串口,並收集打印信息:
****************************************************
*????????????????????????????????????????????????? *
*????????? S9300 Bootload, Ver 102????????????? ???*
*????????????????????????????????????????????????? *
****************************************************
?
Copyright(C) 2003-2009 by HUAWEI TECHNOLOGIES CO., LTD.
Creation date: Sep 10 2009, 13:52:56
?
PCB Version???? : LE02SRUA VER.B
CPU L2 Cache??? : 128KB
CPU Clock Speed : 700MHz
BUS Clock Speed : 133MHz
Memory Type???? : DDR2 SDRAM
Memory Size???? : 1024MB
Memory Speed??? : 667MHz
?
CF Card Init...............................................................???????????????????????????? ???????????????????????????????????????????????????????cfcard:/? - Volume is OK
Done
?
Auto-booting is disabled!
Password:
打印信息中含有"Auto-booting is disabled!",並且停留在提示輸入密碼階段。原因是主控板的Auto-booting選項被關閉,導致備用主控板不會主動啟動文件系統中的系統軟件,停留在bootload階段,所以無法與主用主控板建立通信。主用主控板只能感知到備用主控在位,但沒有通信,因此主動將備用主控板復位,並反復重復這一過程。
----結束
處理建議
??????????????????????????????? 步驟 1???? 由於當前啟動停留在輸入密碼階段,所以首先需要輸入BootLoad菜單的密碼進入BootLoad菜單。
??????????????????????????????? 步驟 2???? 進入BootLoad菜單后,使用組合鍵Ctrl+Z進入隱藏菜單。
??????????????????????????????? 步驟 3???? 選擇Enable auto-booting with default mode選項。
??????????????????????????????? 步驟 4???? 退出隱藏菜單后重啟備用主控板即可。
----結束
4.3.5 主控板反復復位,且存在電源告警
現象描述
S9306的7號槽位備用主控板反復復位且存在電源告警。
原因分析
??????????????????????????????? 步驟 1???? 使用display device命令查看設備信息。
<HUAWEI> display device
S9306's Device status:
Slot? Sub Type? Online??? Power????? Register?????? Alarm????? Primary
?
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -?
?
1???? -?? LPU?? Present?? PowerOn??? Registered???? Normal???? NA????
?
2???? -?? LPU?? Present?? PowerOn??? Registered???? Normal???? NA????
?
3???? -?? LPU?? Present?? PowerOn??? Registered???? Normal???? NA????
?
4???? -?? LPU?? Present?? PowerOn??? Registered???? Normal???? NA????
?
5???? -?? LPU?? Present?? PowerOn??? Registered???? Normal???? NA????
?
6???? -?? LPU?? Present?? PowerOn??? Registered???? Normal???? NA????
?
7???? -?? SRU?? Present?? PowerOn??? Unregistered?? -????????? Slave?
?
8???? -?? SRU?? Present?? PowerOn??? Registered???? Normal???? Master
設備7號槽位的主控板未注冊。
??????????????????????????????? 步驟 2???? 使用過display alarm all命令,查看單板存在電源告警。
<HUAWEI> display alarm all
Level????????? Date??????? Time??????????????? Info??????
Warning????? 2013-10-31? 21:18:27??? The "1.2V_VDD" voltage sensor of SRU board[7](entity) exceed lower minor limit.
?
Warning????? 2013-10-31? 21:18:27??? The "2.5V" voltage sensor of SRU board[7](entity) exceed lower minor limit.
?
Warning????? 2013-10-31? 21:18:27??? The "1.8V" voltage sensor of SRU board[7](entity) exceed lower minor limit.
??????????????????????????????? 步驟 3???? 查看設備的日志信息中也存在單板內部電源告警。
Oct 31 2013 20:56:41 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset.
Oct 31 2013 20:56:39 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset.
Oct 31 2013 20:56:37 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset.
Oct 31 2013 20:56:35 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset.
Oct 31 2013 20:56:33 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset.
Oct 31 2013 20:56:32 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset.
Oct 31 2013 20:56:30 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset.
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALMA/4/VOLT_LOWER(l): The "1.2V_VDD" voltage sensor of SRU board[7](entity) exceed lower minor limit.
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALML/4/VOLT_LOWER(l): The "1.2V_VDD" voltage sensor of SRU board[7](entity) exceed lower minor limit.
(SensorNum=5, Value=0.01, UpperThreshold=1.44, LowerThreshold=0.96)
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALMA/4/VOLT_LOWER(l): The "2.5V" voltage sensor of SRU board[7](entity) exceed lower minor limit.
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALML/4/VOLT_LOWER(l): The "2.5V" voltage sensor of SRU board[7](entity) exceed lower minor limit.
(SensorNum=10, Value=0.86, UpperThreshold=3.00, LowerThreshold=2.00)
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALMA/4/VOLT_LOWER(l): The "1.8V" voltage sensor of SRU board[7](entity) exceed lower minor limit.
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALML/4/VOLT_LOWER(l): The "1.8V" voltage sensor of SRU board[7](entity) exceed lower minor limit.
(SensorNum=9, Value=0.01, UpperThreshold=2.16, LowerThreshold=1.44)
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALML/4/PUBLISH_EVENT(l): Publish event. (Slot=7,Eventid=BOARD_RESET)
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALML/4/ENTRESET(l): SRU board[7] is reset, The reason is: Cold reset board for CPU is not active.
Oct 31 2013 20:56:26 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset.
Oct 31 2013 20:56:24 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset.
可以判斷是單板的內部電源存在故障。
----結束
處理建議
更換主控板,聯系技術支持人員將故障主控板返修。
總結經驗