檢測磁盤驅動的健康程度SMART

本文轉載自查看原文 2018-04-26 23:24 1704

在linux中，工具包的名字為smartmontools

在CentOS中可以使用 yum install smartmontools來安裝工具

首先通過smartctl -i /dev/sda 來檢查一下硬盤是否具有 SMART 特性

下面是smart工具的說明文檔，里面有詳細的說明

http://smartmontools.sourceforge.net/smartmontools_scsi.html

這個是我在虛擬機中測試的不支持

這個是我在真服務器中測試的，支持

SMART support 是 Disabled 狀態的話，需要開啟 SMART 的支持：

smartctl -s on /dev/sda

然后使用smartctl -H /dev/sda來檢測磁盤的健康狀況

查看/dev/sda當前整體監控狀態。PASSED表示健康，否則意味着磁盤已經故障，或很快就會發生故障。

使用

smartctl -t short /dev/sda

做一個快速自檢

smartctl -l selftest /dev/sda

查看自檢的進度和結果

使用smartctl -t long /dev/sda 做長時間自檢，這個很耗時，一般放在凌晨

使用smartctl -l error /dev/sda查看出錯日志

在這里，我的讀、寫都沒有發生錯誤，在Non-medium error count 中出現錯誤6。

我一直沒有搞懂（非媒介錯誤計數）這個是什么意思，在官方文檔查了一下，出現如下：

non-medium error counter (only a single number displayed). This represents the number of recoverable events other than write, read or verify errors.

我大致理解了一下，是除了read,write,verify errors的錯誤，可恢復事件的數量

查看所有信息
打印/dev/sda所有的SMART信息。
smartctl -a /dev/sda
相當於依次執行：
smartctl –i /dev/sda
smartctl -c /dev/sda
smartctl -A /dev/sda
smartctl -l error /dev/sda
smartctl -l selftest /dev/sda
smartctl -l selective /dev/sda
開/關SMART功能
打開或關閉/dev/sda 的SMART功能。
smartctl -s on/off /dev/sda
查看當前SMART功能是否開啟，可以使用 –i 參數。
smartctl -i /dev/sda
離線測試
對/dev/sda進行離線測試，它的結果主要用來更新SMART 屬性。
smartctl -t offline /dev/sda
觀察測試進度
通過-c 參數，可以觀察到測試的進度：
smartctl -c /dev/sda

smartctl參數幫助

-h 幫助信息
-V 版本信息
-i 打印基本信息（磁盤設備號、序列號、固件版本…）
-a 打印磁盤所有的SMART信息
運行時行為參數：
-q TYPE 指定輸出的安靜模式。
TYPE可以有3種選擇：
eorsonly 只打印錯誤日志。
slent 有任何打印。
nserial 不打印序列號
-d TYPE 指定磁盤的類型。如果沒有指定，smartctl會根據磁盤的名字來
猜測磁盤類型。
-T TYPE 指定當發生錯誤時，smartctl的容忍程度，是否繼續運行。
TYPE可以有4種選擇：
conservative 一有錯就會退出
normal 如果必須支持的SMART命令失敗，則退出
permissive 忽略一次必須支持的SMART命令失敗
verypermissive 忽略所有必須支持的SMART命令失敗
-b TYPE 指定當發生校驗錯誤時，smartctl的動作。
TYPE有3種選擇：
warn 發出警告，繼續執行
exit 退出smartctl
ignore 不發出告警，繼續執行
-r TYPE smartmontools開發人員相關。
-n POWERMODE 指定當磁盤處於節能模式時，smartctl是否繼續檢查，
默認是不檢查。
POWERMODE有4種選擇：
never 檢查
sleep 除了sleep模式，檢查。
standby 除了sleep或standby模式，檢查。
idle 除了sleep或standby或idle模式，見車。
SMART功能開關參數：
-s on/off 打開或關閉磁盤的SMART功能
-o on/off 打開或關閉SMART自動離線檢測，該功能每4小時就會自動掃描磁盤是
否有缺陷。
-S on/off 打開或關閉“自動保存廠商指定屬性”功能。
SMART 讀和顯示數據參數
-H 報告磁盤的是否健康。如果報告不健康，則說明磁盤已經損壞或會在24小時
內損壞。
-c 顯示磁盤支持的普通SMART功能，以及這些功能當前的狀態。
-A 顯示磁盤支持的廠商指定SMART特性。這些特性的編號從1-253，並且有指
定的名字。
-l TYPE 指定顯示的log類型。
TYPE有4種選擇：
error 只顯示error log。
selftest 只顯示selftest log
selective 只顯示selective self-test log
directory 只顯示Log Directory
-v N,OPTION 顯示廠商指定SMART特性N時，使用廠商相關的顯示方式。
-F TYPE 設置smartctl的行為，當出現一些已知但還沒有解決的硬件或軟件bug時，
smartctl應該怎么做。
-P TYPE 設置smartctl是否對磁盤使用數據庫中已有的參數。
SMART 離線測試、自測試參數
-t TEST 立刻執行測試，可以和-C參數一起使用。
TEST可以有以下幾個選擇：
offline 離線測試。可以在掛載文件系統的磁盤上使用
short 短時間測試。可以在掛載文件系統的磁盤上使用。
long 長時間測試。可以在掛載文件系統的磁盤上使用。
conveyance [ATA only]傳輸zi測試。可以在掛載文件系統的磁盤上使用。
select, N-M
select, N+SIZE [ATA only]有選擇性測試，測試磁盤的部分LBA。N表示
LBA編號，M表示結束LBA編號，SIZE表示測試的LBA
范圍。
-C 在captive模式下運行測試。
注意：（1）-C必須配合-t一起使用，但如果是-t offline，則-C不生效。
（2）-C會使得磁盤很忙，所以最好是在沒有掛載文件系統的磁盤上使用。
-X 中斷no-captive模式下運行的測試。

多台機器同時需要監控時，每台機器都需要運行一個監控程序，我們首先要獲取服務器的信息以分辨機器，發生問題時，也可以評估問題的嚴重性。

獲取IP

獲取內網IP：

通過ifconfig命令獲取全部的網絡信息，並排除掉本地host和ipv6信息。

/sbin/ifconfig | grep inet | grep -v '127.0.0.1' | grep -v inet6 | awk '{print $2}' | tr -d "addr:"

注意這里要使用ifconfig的絕對路徑，因為如果監控腳本運行在 crontab 的話，執行時是不會帶有環境信息的。

獲取外網IP：

外網的IP我們可以通過請求別的網站來回顯，有一些網站提供此服務，如 ipecho.net/plain 或者我自己懶得搭建的網站：alwayscoding.net。

命令如下 curl alwayscoding.net

獲取系統信息

獲取系統信息建議使用 lsb_release -a 方法：

lsb_release -a
LSB Version:    :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch
Distributor ID: CentOS
Description:    CentOS release 6.5 (Final)
Release:    6.5
Codename:   Final

信息比較豐富，可以截取字符串中需要的部分；

CPU

CPU 負載是我們要監控的首要指標，我們常說的系統負載指的就是它，它是指一段時間內CPU處理進程數占 CPU 能處理最大進程數的比例，即一個 CPU 的最大負載是 1.0，這種情況 CPU 正好能將所有進程執行完，超出這個限制，系統會進入 over load 超載狀態，就會有進程需要等待其他進程執行結束。我們一般認為CPU負載在 0.6以下是健康狀態。

在終端上查看系統負載通常使用 top 命令，但它是交互型的，且數據較多較雜，不利於寫監控腳本，我們一般使用 uptime 通過其 average load 字段獲取最近 1分鍾、5分鍾、15分鍾的平均負載。

uptime
16:03:30 up 130 days, 23:33,  1 user,  load average: 4.62, 4.97, 5.08

此時系統平均負載約為 5，不是系統已經超載，也沒有顯示錯誤，這是因為在考慮負載時還要考慮 CPU 的核心數，多核 CPU 同時能處理的進程數與其核數成正比，其最大負載不是 1，而是其 CPU 核心數 N。

我們使用 nproc 可以查看系統 CPU 核心數，我正在使用的這台機器核心數是 16，所以其最大負載是16，平均負載是 5/16 = 0.32 ， CPU 處於健康狀態。

內存

內存是我們要監控的另外一項核心指標，內存占用率太高，無疑會導致進程無法正常分配內存執行。

我們也可以通過 top 命令查看內存占用，但監控中更常用 free 命令：

free -m
             total       used       free     shared    buffers     cached
Mem:         32108      18262      13846          0        487      11544
-/+ buffers/cache:       6230      25878
Swap:            0          0          0

我們首先來看 Mem 這一行，共 32108M 內存，已使用 18262M，剩余 13846，那么內存的使用率就是 18262/32108*100% = 56.88%。那么，后面的shared、buffers、cached 又是什么意思呢？

其實在 linux 中，內存的分配也是懶惰原則，在內存分配給一個進程，進程執行完畢后 linux 是不會立即清理內存的，而是把這一部分內存當作緩存存儲起來，如果此進程再啟動就不必再重新加載了；如果可用內存使用完了，則將這一部分緩存清空，重新利用。這樣來看 used 里的 buffers 和 cached 部分是隨時可被重用的，不能算作被占用。而 shared 是進程共享內存部分，會作為被占用部分，但一般較少使用，與此相關的內容，可以看文末的參考文章。

真實數據是第三行的去除 buffers 和 cache 的部分，即真正的內存使用率是 6230/(6230+25878)*100% = 19.4%。

而第四行的 swap 是用來臨時存儲內存 buffers 和 cache 的，正常情況雖然能加快進程的重啟，但物理內存較少的情況下，會引起 swap 的頻繁讀寫，增加服務器的 IO 壓力，用與不用視情況而定。

網絡

網絡在 linux 作為 web 服務器時也是一項很重要的指標，相關命令有很多，但各有所長，我們一般監控以下狀態：

使用netstat查看監聽端口。

netstat -an | grep LISTEN | grep tcp | grep 80 查看是否有進程正在監控80端口。

使用ping監控網絡連接

使用 ping 命令可以查看網絡是否連接，使用 -c 選項來控制請求次數，使用 -w 選項來控制超時時間（單位：毫秒），最后利用 && 符號的 短路 特性來控制結果輸出:

ping -w 100 -c 1 weibo.com &>/dev/null && echo "connected"

硬盤

硬盤不是特別重要的監控指標，但在硬盤滿的時候寫文件失敗也會影響進程的正常執行。

我們使用 df 命令來查看磁盤的使用狀態，-h 會以易讀格式輸出：

df -h
Filesystem      Size  Used Avail Use% Mounted on
/dev/vda1        40G  6.0G   32G  16% /
tmpfs            16G     0   16G   0% /dev/shm
/dev/vdb1       296G   16G  265G   6% /data0

我們可以使用 grep 命令找到想要查詢的掛載節點，再使用 awk 命令獲取結果字段。

另外使用 du [-h] /path/to/dir [--max-depth=n] 可以查看某目錄的大小，注意使用 --max-depth=n控制遍歷深度。

運行/其他

其他的監控狀態主要包括進程錯誤日志監控，請求數監控，進程存在狀態監控等，這些可以用到一些基本命令了，如 ps等。

更詳細的信息就需要使用進程日志了，使用 grep 、awk 等命令來分析日志來獲取更詳細的信息。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 想知道自己的磁盤健康狀況嗎？SMART Utility for mac能夠自動檢測磁盤的狀態和錯誤情況 C++遍歷磁盤驅動器 C# -- 使用 DriveInfo 獲取磁盤驅動器信息磁盤控制器驅動程序，磁盤控制器（主板上），磁盤控制電路（磁盤驅動器上） USB鍵盤驅動分析 8.2 USB鍵盤驅動編寫和測試 kubernetes之健康狀態檢測 Linux上使用SMART檢測硬盤 MCU軟件最佳實踐——矩陣鍵盤驅動 PVE 主機磁盤健康監控