------ 解析因內核棧溢出導致的 “double fault” 藍屏 ------

本文轉載自查看原文 2018-02-19 22:03 1716

——————————————————————————————————————————————————————————————————————————

前一篇指出 tail_recursivef_factorial() 會遞歸調用自身來計算某個正整數的階乘。當要計算的目標數值過大，經歷多次調用后，

就會耗盡可用的內核棧，引發一次頁錯誤異常，而轉移控制到錯誤處理程序前再次向無效的內存地址壓入“陷阱幀”則會讓原本可

以處理的異常升級為“double fault”，致使系統崩潰。本篇通過試圖計算 685! 來觸發“double fault”並進行分析。

將編譯好的驅動拷貝到被調試機器上，利用 sc.exe 把它加載至內核空間，源碼中（參見上一篇）設置的初始斷點被激活從而斷入

調試機上的 WinDbg.exe，觀察驅動入口點“DriverEntry()”內的局部變量，其中“Number”的值 0x2ad 正是要計算階乘的數

685：

按下“g”鍵恢復執行，沒多久就讓系統崩潰了，這在我們的意料之中，如果沒有連接宿主機上的調試器，目標系統就會直接

藍屏，並且顯示“bug check”代碼——0000007F：

在 MSDN 網站上搜索該錯誤碼，它對應於“UNEXPECTED_KERNEL_MODE_TRAP”，官方給出的解釋如下：

The UNEXPECTED_KERNEL_MODE_TRAP bug check has a value of 0x0000007F.
This bug check indicates that the Intel CPU generated a trap and the kernel failed to catch this trap.

This trap could be a bound trap (a trap the kernel is not permitted to catch) or a double fault
(a fault that occurred while processing an earlier fault, which always results in a system failure).

這種錯誤是由於 Intel CPU 生成了一個陷阱（trap），而內核未能捕獲這個陷阱。
此陷阱可能是一個受困陷阱（內核不允許捕獲的陷阱），或一個“double fault”（當處理一個早先的錯誤時又出現一個錯誤，
這樣就總是會導致系統故障）。

原文描述中的后一種情況（處理錯誤時又發生另一個錯誤）就是我們此刻的處境。

UNEXPECTED_KERNEL_MODE_TRAP 有四個參數，你可以從上一張圖看到，首個參數值為“0x00000008（陷阱編號）”，

官方對該值的解釋為：

0x00000008, or Double Fault, indicates that an exception occurs during a call to the handler for a prior exception.
Typically, the two exceptions are handled serially.
However, there are several exceptions that cannot be handled serially,
and in this situation the processor signals a double fault. There are two common causes of a double fault:

A kernel stack overflow. This overflow occurs when a guard page is hit, and the kernel tries to push a trap frame.
Because there is no stack left, a stack overflow results, causing the double fault.
If you think this overview has occurred, use !thread to determine the stack limits, and then use kb
(Display Stack Backtrace) with a large parameter (for example, kb 100) to display the full stack.

A hardware problem.

“Double Fault”，指明在調用前一個異常處理程序期間，又出現了一個異常。一般而言，兩個異常是順序處理的。
然而，有一些異常無法順序處理，在這種情況下處理器就會發出一個“double fault”信號。有兩種常見情況會導致
“double fault”：

1。一次內核棧溢出。當接觸到一個保護頁時就會發生此類溢出，然后內核試圖向其中壓入一個陷阱幀。
因為已經沒有剩余棧可用了，導致又一次棧溢出，造成“double fault”。如果你認為發生了這種溢出，利用“!thread”調試器
命令確定棧界限，然后使用“kb”（顯示棧回溯）命令，並帶着較大的參數（比如 kb 100）來顯示完整的棧。

2。硬件問題