Oracle Real Application Clusters(Oracle RAC),相對於Oracle單實例來說部署安裝和維護都增加了難度,尤其在日常的維護和故障處理過程中,各種日志的查看更加重要,本文主要對Oracle 11g 集群下的目錄結構和路徑進行介紹和說明。
以下是集群目錄下日志結構,以及對應目錄的功能說明,對排查問題尤其重要。
[grid@dbrac1 dbrac1]$ tree -d
.
├── acfslog
├── acfsrepl
├── acfsreplroot
├── acfssec
├── admin
├── agent <==========包含CRSD和OHASD守護進程的oraagent、orarootagent、oracssdagent和oracssdmonitor的跟蹤及診斷日志文件
│ ├── crsd
│ │ ├── application_root
│ │ ├── oraagent_grid
│ │ ├── oraagent_oracle
│ │ ├── orarootagent_root
│ │ └── scriptagent_grid
│ └── ohasd
│ ├── oraagent_grid
│ ├── oracssdagent_root
│ ├── oracssdmonitor_root
│ └── orarootagent_root
├── client <==========包含各種GI客戶端(如CLSCFG/GPNP/OCRCONFIG/OLSNODES/OIFCFG)的跟蹤和診斷日志。
├── crflogd <==========包含由Oracle集群健康監控器(Oracle CHM)提供的集群記錄器服務記錄的跟蹤和診斷日志文件。
├── crfmond <==========包含由Oracle集群健康監控器(Oracle CHM)提供的系統監控服務記錄的跟蹤和診斷日志文件。
├── crsd <==========包含Oracle CRSD守護進程的跟蹤和診斷日志文件,在發生任何Oracle集群件問題時,從該目錄開始着手處理是很不錯的起點
├── cssd <==========包含集群同步CSS日志,其中包括來自客戶端CSS偵聽器的操作
├── ctssd <==========包含用於排除Oracle集群時間同步服務故障的調試日志文件,這一服務在Oracle GI中引入,用於同步集群節點上的時鍾。
├── cvu <==========包含由Oracle集群驗證實用工具生成的跟蹤和調試日志
│ ├── cvulog
│ └── cvutrc
├── diskmon <==========用於排除Oracle磁盤監控器守護進程故障的調試日志文件。
├── evmd <==========包含事件卷管理器(EVM)和evmlogger守護進程的跟蹤及診斷文件。它在調試中使用頻率要低於crsd和cssd目錄。
├── gipcd <==========包含用於排除Oracle網格進程間通信守住程序進程故障的調試和跟蹤文件。
├── gnsd <==========包含用於排除Oracle網格命名服務相關問題的跟蹤和調試日志文件,這一服務是在Oracle GI中引入的。
├── gpnpd <==========包含Oracle網格即插即用守護進程的日志和輸出文件。
├── mdnsd <==========包含用於排除多播域名服務故障的跟蹤和診斷日志文件。Oracle網格命名服務使用這一服務來管理名稱解析和服務發現。
├── ohasd <==========包含Oracle高可用性服務守護進程的日志和輸出文件。ohasd日志文件是對於Oracle11g以及更高版本中診斷集群啟動問題是真正重要的文件
├── racg <==========包括各個Oracle RACG可執行文件中跟蹤和調試日志
│ ├── racgeut
│ ├── racgevtf
│ └── racgmain
└── srvm <==========包含Oracle服務器管理器服務的日志文件
38 directories
[grid@dbrac1 dbrac1]$ pwd
/u01/app/11.2.0/grid/log/dbrac1
除以上目錄外,/u01/app/11.2.0/grid/log/dbrac1/alertdbrac1.log日志也相當重要,出問題第一個需要查看的目錄。
介紹完集群的日志后,下面說一則案例,關於客戶集群單節點服務器重啟,日志查看順序。與客戶溝通確認,大概下午3點左右重啟。
1、查看系統日志,排查重啟時間,確實14:51:38,系統日志開始清理集群進程,並重啟了系統,但是誰發起了本次請求,還需要進一步查看集群日志

思考:1、集群仲裁會發生節點重啟(引起仲裁的機制較多)
2、服務器級別故障
3、其他未知原因
2、檢查集群日志的alert,/u01/app/11.2.0/grid/log/dbrac1/alertdbrac1.log,在14:52:04時,接收到agent的關集群命令開始關閉相關進程,在這個日志暫時沒有發現異常錯誤。

3、排查/u01/app/11.2.0/grid/log/dbrac1/agent目錄下的相關日志,agent有兩個目錄crsd、ohasd,先排查crsd下日志,發現類似消息,均為接收到關閉集群的請求,未發現異常的報錯信息,如此看來,需要進一步查看ohasd目錄下日志。

4、通過對/u01/app/11.2.0/grid/log/dbrac1/agent/ohasd目錄下的日志進行排查,在oracssdmonitor_root日志中發現如下異常,大致異常是存儲鏈接中斷,不可用,這就是集群重啟的首要因素,通知客戶檢查自己的光纖鏈路情況。

至此,問題得以解決。
