--此事件為親身經歷,然后參照網上方法總結的
原由:醫院his項目上線,在驗證科室訪問數據庫時,發現某科室無法連接數據庫(所有集群地址)
問題排查:1.首先排除數據庫問題,用其他科室或者工具連接數據庫實例IP、集群IP訪問數據庫,驗證能正常連接、使用;
2.查看檢驗科防火牆,ping 數據庫IP,發現能ping通
3.讓網絡工程師檢查檢驗科到數據庫服務器網絡、路由器、交換機配置,發現數據庫服務器的心跳路由和檢驗科使用網絡沖突:
linux: route --- 有一條10.10.10.0的路由 而檢驗科室也是使用該網段
確認這可能是問題的症結
4.與領導溝通,先刪除路由,驗證檢驗科能否訪問數據庫,同時驗證Oracle rac是否正常運行 方法:a.刪除路由 route del -net 10.10.10.0/24
b.檢驗科能訪問數據庫
c.驗證數據庫集群,發現rac2集群資源消失,csrctl start crs直接報錯, rac1集
群資源正常
d.添加回路由 route add -net 10.10.10.0/24 dev eth1,重啟rac2集群,正常
5.因此只能修改集群心跳IP,換成其他心跳路由,然后刪除老路由
方法: rac1 : 10.10.10.1 -- 172.20.255.253 255.255.255.0
rac2 : 10.10.10.2 -- 172.20.255.254 255.255.255.0
a.備份ocr olr gpnp profile
rac1\rac2grid用戶:
cd /u01/app/grid/product/11.2.0/grid_1/gpnp/profiles/peer
cp profile.xml profile.xml.bak
rac1 root用戶:
/u01/app/grid/product/11.2.0/grid_1/bin/ocrconfig -manualbackup 備份
/u01/app/grid/product/11.2.0/grid_1/bin/ocrconfig -showbackup 查看
b.更改grid 心跳Ip,保持所有節點處於運行狀態,只要在一個節點操作就可以
rac1 root用戶:
/u01/app/grid/product/11.2.0/grid_1/bin/oifcfg iflist 查看rac1路由表
/u01/app/grid/product/11.2.0/grid_1/bin/oifcfg getif查看集群網絡連接由
ipcalc -bnm 172.20.255.253 255.255.255.0 增加新的心跳ip
/u01/app/grid/product/11.2.0/grid_1/bin/oifcfg setif -global
eth1/172.20.255.0:cluster_interconnect 新增集群網絡連接路由
/u01/app/grid/product/11.2.0/grid_1/bin/oifcfg getif 查看到新增的地址
c. 關閉集群軟件
[root@rac1 ~]# /u01/app/grid/product/11.2.0/grid_1/bin/crsctl stop crs
[root@rac2 ~]# /u01/app/grid/product/11.2.0/grid_1/bin/crsctl stop crs
d.更改主機心跳地址、hosts文件,重啟集群
[root@rac1 ~]#vim /etc/hosts
[root@rac1 ~]#vim /etc/sysconfig/network-scripts/ifcfg-eth1
[root@rac1 ~]#service networl restart
[root@rac1 ~]# /u01/app/grid/product/11.2.0/grid_1/bin/crsctl start crs
[root@rac2 ~]#vim /etc/hosts
[root@rac2 ~]#vim /etc/sysconfig/network-scripts/ifcfg-eth1
[root@rac2 ~]#service networl restart
[root@rac2 ~]# /u01/app/grid/product/11.2.0/grid_1/bin/crsctl start crs
e.保證rac1 rac2集群都啟動正常后,再刪除老的連接地址
[root@rac1 ~]# /u01/app/grid/product/11.2.0/grid_1/bin/crsctl stat res -t
查看集群狀態
[root@rac1 ~]# /u01/app/grid/product/11.2.0/grid_1/bin/oifcfg getif
[root@rac1 ~]# /u01/app/grid/product/11.2.0/grid_1/bin/oifcfg delif -
global eth1/10.10.10.0 刪除老的連接地址
[root@rac1 ~]# /u01/app/grid/product/11.2.0/grid_1/bin/oifcfg getif檢查
是否刪除
f. 刪除老的路由
rac1 rac2 root用戶:
route ---查看,表中已生成新地址的路由
route del -net 10.10.10.0/24 刪除老的路由
g.驗證集群軟件、數據庫、監聽、應用程序、科室、第三方、業務能否正常連
接、使用。