需求描述
在我們的生產環境中,大部分情況下需要有自己的運維體制,包括自己健康狀態的檢測等。如果發生異常,需要提前預警的,通知形式一般為發郵件告知。
在上一篇文章中已經分析了SQL SERVER中關於郵件的基礎配置,本篇將利用此功能對多台Server的跑批Job進行監控。
本篇實現
1、每天檢查服務器中的SQL Server跑批Job的運行狀態,如果跑批失敗,則發郵件告訴管理員失敗的明細
2、解決多台服務器同時檢查
監控腳本
首先我們來解決第二個問題,關於多台服務器的問題:
<1>一般監控我們需要監控很多台服務器的JOb,所以對於服務器的量控制我們需要生成一個配置文件。
<computernames>
<computername>
wuxuelei-pc </computername> </computernames>
配置文件名字:computername.xml,這樣就解決很多服務器的問題,只需要在配置文件中增加就可以,因為我在本地測試,所以就配置了我的本地電腦
<2>利用Power Shell腳本,抓取出每台服務器的Job的狀態,並且將Job的運行時間、運行狀態、描述以及錯誤的步驟等信息整理,形成匯總郵件。
腳本如下:
$server = "(local)" $uid = "sa" $db="master" $pwd="password" $mailprfname = "TestMail" $recipients = "787449667@qq.com" $subject = "老大,快去看看這些服務器的Job跑失敗了!" $computernamexml = "F:\PowerShell\發送郵件\computername.xml" function GetServerName($xmlpath) { $xml = [xml] (Get-Content $xmlpath) $return = New-Object Collections.Generic.List[string] for($i = 0;$i -lt $xml.computernames.ChildNodes.Count;$i++) { if ( $xml.computernames.ChildNodes.Count -eq 1) { $cp = [string]$xml.computernames.computername } else { $cp = [string]$xml.computernames.computername[$i] } $return.Add($cp.Trim()) } $return } function GetAlterCounter($xmlpath) { $xml = [xml] (Get-Content $xmlpath) $return = New-Object Collections.Generic.List[string] $list = $xml.counters.Counter } function CreateAlter($message) { $SqlConnection = New-Object System.Data.SqlClient.SqlConnection $CnnString ="Server = $server; Database = $db;User Id = $uid; Password = $pwd" $SqlConnection.ConnectionString = $CnnString $CC = $SqlConnection.CreateCommand(); if (-not ($SqlConnection.State -like "Open")) { $SqlConnection.Open() } $cc.CommandText= " EXEC msdb..sp_send_dbmail @profile_name = '$mailprfname' ,@recipients = '$recipients' ,@body = '$message' ,@subject = '$subject' " $cc.ExecuteNonQuery()|out-null $SqlConnection.Close(); } $report = "" $item = New-Object Collections.Generic.List[string] $names = GetServerName($computernamexml) foreach($cp in $names) { $srv=New-Object "Microsoft.SqlServer.Management.Smo.Server" "(local)" $item=$srv.jobserver.jobs | where-object {$_.lastrunoutcome -eq "Failed" -and $_.isenabled -eq $TRUE} | select OriginatingServer,name,Description,lastrunoutcome,lastrundate,JobSteps #Write-Host $item.JobSteps.name $report += " 服務器:"+$item.OriginatingServer+" Job名稱:"+$item.name+" Job描述:"+$item.Description +" Job最后運行狀態:"+$item.lastrunoutcome +" Job最后運行時間:"+$item.lastrundate +" Job失敗的步驟名稱:"+$item.JobSteps.name + "`n" } #生產警告 CreateAlter $report
通過上述腳本,生成跑批任務,就可以定時監控多台服務器的Job了。
當然,建議放在所有Job的運行完成之后,進行檢測。
上述代碼中,有兩個技術點:
1、需要自己配置SQL Server郵件代理,具體方法參照我上一篇:點擊此;
2、需要自己配置跑批計划,方法自己網上搜,很簡單。
本篇所監控的Job狀態,利用的是上一篇我們創建的Job,跑批肯定失敗的。
效果圖如下
點擊來看一下郵件明細內容:
給出的失敗信息還是挺詳細的。
另外,因為我只建立了一個失敗的Job,所以郵件中只是發送一個條。
其實關於此監控,還有一些狀態是可以監控的:
1、比如:可以指定服務器上的部分Job進行監控
2、監控Job的狀態:失敗或者正常等
以上內容,可以自己根據需要靈活配置。
結語
本篇就列舉了一下利用PowerShell實現自動化運維和檢測。算作拋磚引玉了吧,自己另有需求可以自己靈活實現。
另外關於Job,一般除了SQL Server的Agent會存在,還有一部分是操作系統的計划任務也需要檢測,我們后面的文章解決此問題。
關於SQL Server自動化運維和檢測的內容很廣泛,其中很多都是從日常的經驗中出發,一步步的從手動到自動的過程。
后面的文章,我們將會更深入關於SQL Server的自動化優化運維進行分析。有興趣的童鞋,可以提前關注。
文章的最后,給出該系列其它的一些監控方式,皆為原創
SQL Server自動化運維系列——監控性能指標腳本(Power Shell)
SQL Server自動化運維系列——監控磁盤剩余空間及SQL Server錯誤日志(Power Shell)
SQL Server自動化運維系列——關於郵件通知那點事(.Net開發人員的福利)
如果您看了本篇博客,覺得對您有所收獲,請不要吝嗇您的“推薦”。