Oracle RAC服務器重啟故障排查

本文轉載自查看原文 2019-09-17 17:10 730

　　Oracle Real Application Clusters（Oracle RAC），相對於Oracle單實例來說部署安裝和維護都增加了難度，尤其在日常的維護和故障處理過程中，各種日志的查看更加重要，本文主要對Oracle 11g 集群下的目錄結構和路徑進行介紹和說明。

　　以下是集群目錄下日志結構，以及對應目錄的功能說明，對排查問題尤其重要。

[grid@dbrac1 dbrac1]$ tree -d
.
├── acfslog
├── acfsrepl
├── acfsreplroot
├── acfssec
├── admin
├── agent                       <==========包含CRSD和OHASD守護進程的oraagent、orarootagent、oracssdagent和oracssdmonitor的跟蹤及診斷日志文件
│   ├── crsd
│   │   ├── application_root
│   │   ├── oraagent_grid
│   │   ├── oraagent_oracle
│   │   ├── orarootagent_root
│   │   └── scriptagent_grid
│   └── ohasd
│       ├── oraagent_grid
│       ├── oracssdagent_root
│       ├── oracssdmonitor_root
│       └── orarootagent_root
├── client                    <==========包含各種GI客戶端(如CLSCFG/GPNP/OCRCONFIG/OLSNODES/OIFCFG)的跟蹤和診斷日志。
├── crflogd                   <==========包含由Oracle集群健康監控器(Oracle CHM)提供的集群記錄器服務記錄的跟蹤和診斷日志文件。
├── crfmond                   <==========包含由Oracle集群健康監控器(Oracle CHM)提供的系統監控服務記錄的跟蹤和診斷日志文件。
├── crsd                      <==========包含Oracle CRSD守護進程的跟蹤和診斷日志文件，在發生任何Oracle集群件問題時，從該目錄開始着手處理是很不錯的起點
├── cssd                      <==========包含集群同步CSS日志，其中包括來自客戶端CSS偵聽器的操作
├── ctssd                     <==========包含用於排除Oracle集群時間同步服務故障的調試日志文件，這一服務在Oracle GI中引入，用於同步集群節點上的時鍾。
├── cvu                       <==========包含由Oracle集群驗證實用工具生成的跟蹤和調試日志
│   ├── cvulog
│   └── cvutrc
├── diskmon                   <==========用於排除Oracle磁盤監控器守護進程故障的調試日志文件。
├── evmd                      <==========包含事件卷管理器(EVM)和evmlogger守護進程的跟蹤及診斷文件。它在調試中使用頻率要低於crsd和cssd目錄。
├── gipcd                     <==========包含用於排除Oracle網格進程間通信守住程序進程故障的調試和跟蹤文件。
├── gnsd                      <==========包含用於排除Oracle網格命名服務相關問題的跟蹤和調試日志文件，這一服務是在Oracle GI中引入的。
├── gpnpd                     <==========包含Oracle網格即插即用守護進程的日志和輸出文件。
├── mdnsd                     <==========包含用於排除多播域名服務故障的跟蹤和診斷日志文件。Oracle網格命名服務使用這一服務來管理名稱解析和服務發現。
├── ohasd                     <==========包含Oracle高可用性服務守護進程的日志和輸出文件。ohasd日志文件是對於Oracle11g以及更高版本中診斷集群啟動問題是真正重要的文件
├── racg                      <==========包括各個Oracle RACG可執行文件中跟蹤和調試日志
│   ├── racgeut
│   ├── racgevtf
│   └── racgmain
└── srvm                      <==========包含Oracle服務器管理器服務的日志文件

38 directories
[grid@dbrac1 dbrac1]$ pwd
/u01/app/11.2.0/grid/log/dbrac1

除以上目錄外，/u01/app/11.2.0/grid/log/dbrac1/alertdbrac1.log日志也相當重要，出問題第一個需要查看的目錄。

　　介紹完集群的日志后，下面說一則案例，關於客戶集群單節點服務器重啟，日志查看順序。與客戶溝通確認，大概下午3點左右重啟。

　　1、查看系統日志，排查重啟時間，確實14：51：38，系統日志開始清理集群進程，並重啟了系統，但是誰發起了本次請求，還需要進一步查看集群日志

　　思考：1、集群仲裁會發生節點重啟（引起仲裁的機制較多）

　　　　　2、服務器級別故障

3、其他未知原因　

2、檢查集群日志的alert,/u01/app/11.2.0/grid/log/dbrac1/alertdbrac1.log，在14：52：04時，接收到agent的關集群命令開始關閉相關進程，在這個日志暫時沒有發現異常錯誤。

　　　　3、排查/u01/app/11.2.0/grid/log/dbrac1/agent目錄下的相關日志，agent有兩個目錄crsd、ohasd，先排查crsd下日志，發現類似消息，均為接收到關閉集群的請求，未發現異常的報錯信息，如此看來，需要進一步查看ohasd目錄下日志。

　　　　4、通過對/u01/app/11.2.0/grid/log/dbrac1/agent/ohasd目錄下的日志進行排查，在oracssdmonitor_root日志中發現如下異常，大致異常是存儲鏈接中斷，不可用，這就是集群重啟的首要因素，通知客戶檢查自己的光纖鏈路情況。

　　　至此，問題得以解決。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 linux服務器重啟oracle服務。 Linux服務器重啟后啟動Oracle服務服務器重啟，nginx重啟失敗服務器重啟crontab服務 nginx 服務器重啟命令，關閉 linux服務器重啟指令 nginx 服務器重啟命令，關閉 nginx 服務器重啟命令，關閉 linux 服務器重啟指令 Linux下服務器重啟