前兩天公司線上的數據庫服務器CPU很高達到近100%了,而且居高不下,使用任務管理器看到到是進程sqlservr.exe占用cpu特別高,這個進程就是sql server服務的進程。cpu占用率近100%了,導致服務器很卡,網站打不開。但是多次重啟sql server服務無果,啟動之后cpu很快又上來了。這個線上的環境,也不能重啟服務器中,所以有些麻煩,剛開始我們排除了服務器遭到攻擊的可能,因為服務器帶寬及請求情況沒有異常。這樣只能把問題定位到不是不數據庫中有些事務鎖或者耗性能sql語句導致的。
后來我們啟用了sql server profier跟蹤了一下最近執行的sql語句。大概的看出的問題,由於之前對一個大表有update操作,導致服務器很卡,后來想到怕影響正常業務操作,就取消了。操作雖然取消了,但是可能占用的資源還沒有釋放,后來業務中又有很多對這個庫的寫的sql操作,雖然這個寫操作不是針對之前那個update的同一個表,但是有點奇怪就是為什么通過profiler看到是這個寫操作還是占用cpu比較多,還有很多Audit Logout也占用比較多的cpu和內存。后來我把寫sql的那個語句改了一下,改成寫到另外的庫,問題就解決了。
下面我就來分享下 Sql Server Cpu 100% 的常見原因及優化:
針對udit Logout也占用比較多的cpu和內存一般有以下分析和解決方法:
1、dbcc checkdb 重建索引
2、sp_lock 檢查有沒有死鎖
3、A CPU bottleneck that happens suddenly and unexpectedly, without additional load on the server, is commonly caused by a nonoptimal query plan, a poor configuration, or design factors, and not insufficient hardware resources. Before rushing out to buy faster and/or more processors, you should first identify the largest consumers of CPU bandwidth and see if they can be tuned.
http://technet.microsoft.com/zh-cn/library/cc966540(en-us).aspx
4、用pssdig抓一下,然后在RMLUtils中看消耗cpu的用戶和數據庫以及對應的程序。
5、在這個事件類別里面看到的CPU數不是指aduit logout所使用的cpu時間,而是指該該連接在連接期內所使用的CPU的總數。再仔細的Profiler一下。
6、看看產生aduit logout事件的是否來自同一個進程
==============================
Sql Server Cpu 100% 的情況並不太常見,一般引起 Sql Server 產生性能問題的,都是 阻塞、連接數、IO 磁盤等。所以,一般Sql Server 的使用率都是比較低的。但是,在有些情況下,還是會出現Cpu 100%的情況的。
Sql Server 在做哪些操作的時候,會比較集中使用 CPU 資源呢?
常見Cpu 100%的原因主要如下:
1. 編譯和重編譯
編譯是 Sql Server 為指令生成執行計划的過程。Sql Server 要分析指令要做的事情,分析它所要訪問的表格結構,也就是生成執行計划的過程。這個過程主要是在做各種計算,所以CPU 使用比較集中的地方。
執行計划生成后會被緩存在 內存中,以便重用。但是不是所有的都可以 被重用。在很多時候,由於數據量發生了變化,或者數據結構發生了變化,同樣一句話執行,就要重編譯。
2. 排序(sort) 和 聚合計算(aggregation)
在查詢的時候,經常會做 order by、distinct 這樣的操作,也會做 avg、sum、max、min 這樣的聚合計算,在數據已經被加載到內存后,就要使用CPU把這些計算做完。所以這些操作的語句CPU 使用量會多一些。
3. 表格連接(Join)操作
當語句需要兩張表做連接的時候,SQL Server 常常會選擇 Nested Loop 或 Hash 算法。算法的完成要運行 CPU,所以 join 有時候也會帶來 CPU 使用比較集中的地方。
4. Count(*) 語句執行的過於頻繁
特別是對大表 Count(*) ,因為 Count(*) 后面如果沒有條件,或者條件用不上索引,都會引起 全表掃描的,也會引起 CPU 的大量運算
在 SQL SERVER 這里,和 CPU 有關的設置卻很有限,主要在 sp_configure 下,常見的設置有 Priority Boost 和 Lightweight Pooling
而對於 執行計划的觀察,利用 sys.dm_exec_cached_plans 視圖 會比較方便直觀的觀察,是很有的。
解決辦法:
1. 緊急處理時,可以重啟Sql Server 的服務,當然,如果 DB 是在線的 DB ,請謹慎此操作。
2. 利用 Sql Server Profiler 來抓去語句,找出耗性能的SQL 語句,優化點。可以說,Sql 語句就好比 Sql server 的性能之匙,80 % 以上的 SQL SERVER 性能問題都是 SQL 語句引起的。
3. 根據 累計 使用 CPU 資源最多的語句 和 最經常 需要編輯的存儲過程 來優化 語句 和存儲過程。
--使用DMV來分析SQL Server啟動以來累計使用CPU資源最多的語句。
例如下面的語句就可以列出前50名。
select c.last_execution_time,c.execution_count,c.total_logical_reads,c.total_logical_writes,c.total_elapsed_time,c.last_elapsed_time, q.[text] from (select top 50 qs.* from sys.dm_exec_query_stats qs order by qs.total_worker_time desc) as c cross apply sys.dm_exec_sql_text(plan_handle) as q order by c.total_worker_time desc go