APEI:ACPI Platform Error Interface
1、Hardware Errors 和 Error Sources
硬件有錯誤檢測機制。
硬件錯誤分類:Corrected Error、UnCorrected Error(Fatal Error、NotFatal Error(Recoverable))
硬件錯誤源:處理器、chipset、IO bus、IO device;一個硬件錯誤源可能匯聚了不同類型的錯誤,如處理器MCE包含了核、cache、memory、system bus等error。
硬件錯誤源上報通常包含如下內容:error status registers、error configuration or control registers、一種通知OSPM的機制(如果沒有的話,OSPM只能去輪詢,CE可以使用輪詢機制,而UCE需要OSPM及時處理不太適合輪詢)
2、OSPM和System Firmware的關系
3、Error Source Discovery
OSPM 也支持non-ACPI enumerated error sources。
ACPI enumerated error sources通過一系列的table。
1)Boot Error Source-------BERT table
report unhandled errors that occurred in a previous boot
BERT格式:
表頭 + Boot Error Region Length + Boot Error Region Address
Boot Error Region Address ~ Boot Error Region Address + Boot Error Region Length -1:這塊內存區域system firmware必須上報為reserved類型。Error Status Block格式記錄錯誤信息。
2)ACPI Error Source ----------HEST table
Hardware Error Source Table 格式:
表頭 + Error Source Count + Error Source Structure[n]
Error Source Type 3\4\5 reserved 不能使用。
Error Source Structure有下面幾種:
IA-32 Architecture Machine Check Exception、
IA-32 Architecture Corrected Machine Check、
IA-32 Architecture Non-Maskable Interrupt
PCI Express Root Port AER Structure
PCI Express Device AER Structure
PCI Express/PCI-X Bridge AER Structure
Generic Hardware Error Source
Generic Hardware Error Source version2 GHESV2-TYPE10
Hardware Error Notification
IA-32 Architecture Deferred Machine Check
4、Firmware First Error Handling
Errara management and error containment:firmware-first error handing
firmware notify OSPM的方式:NMI、SCI、輪詢,SCI和輪詢只能用於CE
HW-reduced ACPI 使用GPIO-signaled events、Interrupt-signaled events,輪詢 CE
5、Error Serialization ---Error record Serialization Table ERST
在flash或者非易失RAM上記錄error record
6、Error Injection