第一次遇到因為網絡導致dblink異常的等待時間
首先業務反饋在某個時刻出現鏈接超時,業務異常率較高,讓我們配合查詢數據庫是否正常
根據應用提供的異常時間點,提取相應的ash報告
SQL*Net break/reset to client 這位哥排第一位,官方對於這個等待事件的解釋:
還是要檢測應用服務器到數據庫服務器的網絡是否正常
從數據庫所在服務器的主機監控查看
在同一時刻也出現流量驟然為0的現象,說明網絡確實出現異常
再登錄主機查看網卡狀態
發現數據庫服務器的數據網卡在接受包過程中出現異常,並且觀察一段時間,發現該異常率在持續增長
從應用服務器側ping大包到數據庫服務器,也出現個別丟包情況,問題比較嚴重
問題也就集中在這個網卡或者鏈路問題,逐個排查
思路:
調換兩個網卡的尾纖,分別通過傳輸大文件來持續觀察哪個網卡的異常率出現增長
如果依然是這個網卡,則說明這個網卡本身有問題;
如果是另外一個網卡,則說明尾纖有問題;
針對具體問題進行更換處理即可。