一、故障診斷
查看messages日志c0d0t0這塊盤不斷報錯,類型為:retryable,如下:
root@gdhx # more /var/adm/messages
Aug 5 16:43:03 gdhx scsi: [ID 107833 kern.warning] WARNING: /pci@0,600000/pci@0/pci@8/pci@0/scsi@1/sd@1,0 (sd0):
Aug 5 16:43:03 gdhx Error for Command: write(10) Error Level: Retryable
Aug 5 16:43:03 gdhx scsi: [ID 107833 kern.notice] Requested Block: 30334832 Error Block: 30334848
Aug 5 16:43:03 gdhx scsi: [ID 107833 kern.notice] Vendor: FUJITSU Serial Number: 0816H01WMN
Aug 5 16:43:03 gdhx scsi: [ID 107833 kern.notice] Sense Key: Hardware Error
Aug 5 16:43:03 gdhx scsi: [ID 107833 kern.notice] ASC: 0x44 (<vendor unique code 0x44>), ASCQ: 0xa3, FRU: 0x0
Iostat -En查看硬盤hard errors:20,處於增長趨勢
綜上結論:需更換c0d0t0硬盤,可在線更換硬盤。
二、故障處理過程
1、svm信息
root@gdhx # metastat
d4: 鏡像
次鏡像 0: d14
狀態: 確定
次鏡像 1: d24
狀態: 確定
傳送: 1
讀入選項: roundrobin (缺省)
寫入選項: parallel (缺省)
大小: 167781888 塊 (80 GB)
d14: d4 的次鏡像
狀態: 確定
大小: 167781888 塊 (80 GB)
條 0:
設備 引導塊 Dbase 狀態 Reloc 熱備援
c0t0d0s4 0 否 確定 是
d24: d4 的次鏡像
狀態: 確定
大小: 167781888 塊 (80 GB)
條 0:
設備 引導塊 Dbase 狀態 Reloc 熱備援
c0t1d0s4 0 否 確定 是
d1: 鏡像
次鏡像 0: d11
狀態: 確定
次鏡像 1: d21
狀態: 確定
傳送: 1
讀入選項: roundrobin (缺省)
寫入選項: parallel (缺省)
大小: 16790400 塊 (8.0 GB)
d11: d1 的次鏡像
狀態: 確定
大小: 16790400 塊 (8.0 GB)
條 0:
設備 引導塊 Dbase 狀態 Reloc 熱備援
c0t0d0s1 0 否 確定 是
d21: d1 的次鏡像
狀態: 確定
大小: 16790400 塊 (8.0 GB)
條 0:
設備 引導塊 Dbase 狀態 Reloc 熱備援
c0t1d0s1 0 否 確定 是
d0: 鏡像
次鏡像 0: d10
狀態: 確定
次鏡像 1: d20
狀態: 確定
傳送: 1
讀入選項: roundrobin (缺省)
寫入選項: parallel (缺省)
大小: 100355712 塊 (47 GB)
d10: d0 的次鏡像
狀態: 確定
大小: 100355712 塊 (47 GB)
條 0:
設備 引導塊 Dbase 狀態 Reloc 熱備援
c0t0d0s0 0 否 確定 是
d20: d0 的次鏡像
狀態: 確定
大小: 100355712 塊 (47 GB)
條 0:
設備 引導塊 Dbase 狀態 Reloc 熱備援
c0t1d0s0 0 否 確定 是
Device Relocation Information:
Device Reloc Device ID
c0t1d0 是 id1,sd@n500000e01aff7320
c0t0d0 是 id1,sd@n5000c5001782f5b3
root@gdhx # df -k
文件系統 千字節 用了 可用 容量 掛接在
/dev/md/dsk/d0 49418200 33780228 15143790 70% /
/devices 0 0 0 0% /devices
ctfs 0 0 0 0% /system/contract
proc 0 0 0 0% /proc
mnttab 0 0 0 0% /etc/mnttab
swap 2203656 1720 2201936 1% /etc/svc/volatile
objfs 0 0 0 0% /system/object
sharefs 0 0 0 0% /etc/dfs/sharetab
fd 0 0 0 0% /dev/fd
swap 2203256 1320 2201936 1% /tmp
swap 2201984 48 2201936 1% /var/run
/dev/md/dsk/d4 82620893 59432265 22362420 73% /bea
root@gdhx # metadb
flags first blk block count
a m p luo 16 8192 /dev/dsk/c0t0d0s7
a p luo 8208 8192 /dev/dsk/c0t0d0s7
a p luo 16400 8192 /dev/dsk/c0t0d0s7
a p luo 16 8192 /dev/dsk/c0t1d0s7
a p luo 8208 8192 /dev/dsk/c0t1d0s7
root@gdhx # metastat -p
d4 -m d14 d24 1
d14 1 1 c0t0d0s4
d24 1 1 c0t1d0s4
d1 -m d11 d21 1
d11 1 1 c0t0d0s1
d21 1 1 c0t1d0s1
d0 -m d10 d20 1
d10 1 1 c0t0d0s0
d20 1 1 c0t1d0s0
2、刪除報錯硬盤的分區鏡像
metadetach -f d0 d20
metadetach -f d1 d21
metadetach -f d4 d24
metaclear d20
metaclear d21
metaclear d24
3、刪除報錯硬盤的狀態數據庫
metadb -d /dev/dsk/c0t1d0s7
4、物理更換硬盤(確定硬盤亮藍燈才更換),format確認硬盤正常被識別
5、復制分區
prtvtoc /dev/rdsk/c0t0d0s2 | fmthard -s - /dev/rdsk/c0t1d0s2
6、創建新盤狀態數據庫
metadb -a -f -c 2 c0t1d0s7
7、創建鏡像
metainit d20 1 1 c0t1d0s0
metainit d21 1 1 c0t1d0s1
metainit d24 1 1 c0t1d0s4
metattach d0 d20
metattach d1 d21
metattach d4 d24
8、查看鏡像數據同步進度
metastat |grep %
三、檢查設備
查看硬盤狀態、日志等信息
Format
Iostat -En
messages