HDC2021技術分論壇:進程崩潰/應用卡死,故障頻頻怎么辦?


作者:jiwenqiang,DFX技術專家

 

提到開發一個產品,我們通常首先想到的是要實現什么樣的功能,但是除了功能之外,非功能屬性也會很大程度上影響一個產品的體驗效果,比如不定時出現的應用卡死、崩潰現象。那為什么有的系統故障頻頻,有的卻很少出現這些問題呢,這就不得不提到我們今天的主角DFX了。

 

一、什么是DFX?


DFX是早在1960~1970年代就出現的產品設計理念,但是對於不少開發者而言,這是一個陌生的概念,什么是DFX?所謂DFX(Design For X),是指產品的非功能屬性設計,其中的X代表產品的某個特性或者產品生命周期的某個階段。

 

從下面的圖可以看出,產品的非功能屬性是非常豐富的,它們直接影響產品的質量、效率、成本等這些長期核心競爭力。

圖1 產品DFX

 

在過去的幾年里,華為軟件的交付效率和質量一直在不斷提高,每個軟件大版本相較於上個版本交付時間在不斷縮短,故障率也有大幅降低,這些提升的背后,DFX起到了很重要的作用。

 

隨着業界認識的深入,DFX逐漸成為了卓越產品設計的基石以及頭部企業產品設計開發的基礎設施,因此現在對DFX又有了另一種解釋,即“Design For eXcellence”,面向卓越的設計。

 

二、什么是操作系統DFX?

 

現在我們了解了DFX的概念,也知道DFX設計對產品來說異常重要,因此我們在設計HarmonyOS的時候,堅持將DFX的理念帶了進來,使其成為操作系統的公共基礎設施,使能高質量卓越產品的設計、實現、測試和維護。通過對應用程序、設備產品這些操作系統所服務的對象進行考察,我們歸納出系統所能提供的非功能需求,並從中提煉出公共、基礎的DFX框架加入到HarmonyOS中,這就產生了操作系統DFX。開發者在使用HarmonyOS的過程中,可以根據產品需要直接使用或靈活拓展這些DFX能力。

 

圖2 操作系統DFX

 

看到這里,大家可能會覺得,操作系統DFX不就是將產品DFX的能力拷貝到操作系統中嗎。其實不然,操作系統DFX相較於產品DFX有兩個顯著的不同點:

 

  • 由於操作系統不是為某類產品所專門定制的,而是一個全棧、公共的基礎設施,因此操作系統DFX主要聚焦記錄、診斷、恢復、觀測、剖析、維護和服務等開發產品所需要的公共能力。
  • 操作系統DFX更多地關注開發者和設備商的開發體驗,以幫助他們設計出更卓越的產品為目標。


三、HarmonyOS對DFX能力的要求


既然操作系統DFX是為了使能開發者開發出更卓越的產品,而HarmonyOS中也加入了DFX框架和能力,那么大家一定很好奇,HarmonyOS中的DFX是什么樣的?DFX能為HarmonyOS帶來些什么呢?在回答這些問題之前,我們先來看一下HarmonyOS對DFX能力的要求。

 

幾乎所有的操作對DFX的要求都包含以下三方面:

  • 輕量有效:系統資源開銷少,易用易學習,精准有效。
  • 基礎通用:關鍵、基礎、通用、易擴展,方便開發者裁剪和增強。
  • 覆蓋全面:全面服務應用和設備品類,全面服務開發者和設備商,全面覆蓋產品全生命周期。


HarmonyOS除了這些基本要求外,還對DFX提出了新的要求:

 

我們知道,HarmonyOS是面向超級終端的系統,而不同超級終端的資源可能是差距巨大的,比如有的富設備提供的資源為RAM 8GB、ROM 512GB,而有的瘦設備卻只有RAM 128KB、ROM 2MB。面對這么大的資源差異,HarmonyOS對DFX提出了支持全棧多語言、可大可小、靈活部署的要求。

 

除了面向超級終端,HarmonyOS的另一大特色是其豐富的分布式超級終端場景支持能力,因此HarmonyOS要求系統的DFX能力要能夠支持分布式場景,比如分布式的日志、分布式跟蹤、分布式調試調優等等。 
 

圖3 HarmonyOS對DFX能力的要求

 

四、HarmonyOS DFX框架與能力

 

通過上面的介紹,相信大家已經對操作系統DFX的概念有了一定的了解,那么我們現在開始進入正題,給大家介紹一下HarmonyOS DFX的框架與能力。

 

圖4 HarmonyOS DFX框架和能力全景圖

 

圖4的全景圖中間褐色部分為HarmonyOS DFX所提供的能力。

 

HarmonyOS DFX提供了以下能力:

(1)記錄能力:提供了輕量的日志、事件和跟蹤功能,可以將程序運行的軌跡記錄下來,為后續分析度量奠定基礎。

(2)故障管理能力:提供精准有效的故障檢測、定位和恢復能力。

(3)觀測剖析能力:提供了統一便捷的觀測與剖析工具,主要包含信息導出、信息分析和聯動調試能力。

 

那么這些DFX能力的作用又是什么呢?從全景圖中代表DFX的中間部分與周邊的關系可以看出,DFX的這些能力不僅需要為操作系統的其他子系統提供服務,其更重要的使命是支撐影音娛樂、智慧出行等軟件應用以及“1+8+N”等硬件設備。除此之外,這些能力也是產品開發運維工具鏈的基礎,需要支撐開發調試的IDE工具以及產品運維大數據分析平台的構建。

 

在了解了HarmonyOS DFX的框架之后,我們知道HarmonyOS DFX主要包含日志、事件、跟蹤、故障管理、觀測剖析這5部分。日志、事件和跟蹤體現了DFX的記錄能力,故障管理能夠幫助開發者快速定位和發現問題,而觀測剖析則是通過一系列工具,幫助開發者在集成的環境下使用這些DFX能力。接下來我們就來逐個看看HarmonyOS中所具備的這些DFX能力。

 

1. 日志(HiLog)


日志通常被視為最簡單的功能,但是在開發者使用日志的過程中,有兩個比較明顯的問題,一個是濫打日志現象,另一個是隨着軟件規模和組織規模的擴大,系統日志雜亂、流量超大的問題越來越嚴重,不僅容易泄露隱私,甚至連開發者想查看自己的日志都變得愈發困難。針對這兩個問題,HarmonyOS DFX設計了一套全新的日志功能——HiLog。下面是HiLog的示意圖。

 

圖5 日志(HiLog)

 

從上圖可以看出,HiLog不僅提供了支持JS/Java/C/C++多語言的日志采集功能,還着重在日志分類查詢、流量控制和隱私處理上做了專門設計。下面我們逐個看看這些設計。

 

(1)分類查詢

 

為了解決日志雜亂、不便查看的問題,HiLog對於不同級別的日志進行了分類,提供分級查詢日志的命令。並且除了可以按照級別(Level)、類型(Type)、標簽(Tag)查看日志,還提供了按照領域(Domain)查看日志的命令。所謂領域是指跨軟件棧層次的業務垂域。那么我們為什么要按照領域查看日志呢?我們設想一下以下場景:Camera功能領域包含應用、服務和驅動,開發者如果想從一堆日志中過濾出Camera領域的日志,是沒有功能支持的,用老的過濾方法是不行的。為此,我們給需要的領域定義了DomainID,通過領域過濾來解決這個問題。

 

(2)流量控制

 

通過分類查詢,我們解決了日志查看不便的問題,但是超量的日志也會對系統性能產生巨大影響,根據經驗,如果把系統中所有日志全部都打開,嚴重的情況下系統的性能可能會下降至70%。那么該如何解決日志超量的問題呢?

 

HiLog通過對不同領域的日志總量進行流控來解決這個問題,在采集日志時,記錄每個領域的日志總量,識別出超過閾值的領域,然后對該領域的超量日志進行控制。其中對超量日志的處理在調試(Debug)和商用(Release)兩種模式下有不同的處理策略:在Debug模式下,會提示超量日志,但不會真的丟棄超量日志。而在Release模式下,會將超量的日志丟棄並打印一條日志丟棄的提示。

 

圖6 流量控制的兩種模式

 

(3)隱私管控

 

除了查詢不便和超量日志問題,日志的隱私管控也需要引起重視。在我們開發調試的過程中,經常會傾向於打印更多的信息,這就很有可能將用戶隱私信息也打印出來,比如姓名、訪問的URL地址等。而現在對於隱私泄露的處罰是比較嚴厲的,歐盟的《通用數據保護條例》(General Data Protection Regulation,簡稱GDPR)針對隱私泄露最高罰款2千萬歐元或年度營業額的4%,因此,我們在日志打印的時候需要非常謹慎,不能將用戶隱私打印到日志里。

 

為了對隱私安全進行管控,HiLog提供了變量打印控制功能,開發者可以通過格式化字符{private}或{public}靈活對變量內容進行聲明,如果聲明為{private},則表示該變量為隱私變量,在Release模式下會隱藏這些隱私的變量內容,而對於不需要管控的變量,則可用{public}來指明,不進行隱藏。

 

圖7 HiLog的變量打印控制

 

2. 事件(HiView)


除了日志以外,HarmonyOS DFX對事件也提供了記錄能力,並為此設計了一套全新的事件框架(HiView)。

 

圖8 事件框架HiView

 

我們知道,事件可能來源於應用,也可能來源於系統,因此HiView框架分為系統事件框架和應用事件框架兩個部分。每個部分都提供了事件采集接口,系統事件框架使用HiSysEvent接口,應用事件框架使用HiAppEvent接口。除此之外,HiView還提供了靈活的訂閱查詢接口,可以為后端處理者分享采集到的事件。該接口的應用場景有很多,比如IDE可以通過此接口訂閱事件,從而在調試界面上呈現事件,而系統廠商也可以通過此接口訂閱事件,再進行定制化處理。

 

另外,HiView還對系統事件框架的處理邏輯做了插件化設計,通過在HarmonyOS上配置和部署系統插件,可以實現對不同大小終端設備的靈活適配。

 

3. 跟蹤(HiTrace)


接下來,我們來看一下HarmonyOS DFX的最后一項記錄能力——跟蹤。

 

由於HarmonyOS是面向超級終端的系統,因此除了像常規操作系統那樣跟蹤應用間、進程間的交互過程,還需要具備跨設備跟蹤程序交互過程的能力。在HarmonyOS中,這種分布式跟蹤的能力由HiTrace提供,而HiTrace通過TraceID的傳遞來對整個業務鏈進行跟蹤。TraceID不僅能夠在APP、Native、Kernel之間跨層傳遞,還能夠跨進程、甚至跨設備傳遞。值得一提的是,HiTrace是一種輕量級的跟蹤機制,在Wi-Fi條件下僅僅會增加微秒級延遲,而這種延遲對系統來說影響是非常小的。

 

圖9 HiTrace分布式跟蹤

 

4. 故障管理


除了上面介紹的一些記錄能力,故障管理也是HarmonyOS DFX的一項重要能力。為了幫助開發者快速定位和發現問題,HarmonyOS DFX在系統側部署了全量、精准的故障檢測機制,包含7類單系統故障檢測器(進程崩潰、應用卡死、資源泄露、踩內存、整機重啟、不開機和系統死機)和1類分布式故障檢測器,通過這些檢測器,故障檢測率可以達到80%以上。為了滿足HarmonyOS面向超級終端的特性,這些故障檢測器還可以在不同設備上根據資源靈活進行部署。

 

圖10 故障檢測器

 

由於篇幅原因,下面我們重點對這7類故障檢測器中的進程崩潰檢測器、應用卡死檢測器以及系統死機檢測器進行介紹:

 

(1)進程崩潰檢測器

 

說到進程崩潰大家一定都不陌生,這是一種最常見的故障,對此的檢測機制也都比較成熟,但當前的檢測機制還存在着一些問題,比如,應用進程無法直接獲取自己進程相關的崩潰日志,崩潰日志包含很多無效信息、重復信息,以及抓取崩潰調用棧失敗等。為了解決這些問題,HarmonyOS DFX對其提供的進程崩潰檢測器做了以下特殊設計:

  • 支持Java/JS/Native全棧檢測。
  • 開放專門的API給應用進程查詢自己進程的崩潰日志,能且只能獲取自己進程的崩潰信息,解決了應用無權獲取自己崩潰日志的問題。
  • 通過對崩潰日志信息的去重,刪除了很多的無效信息,幫助開發者更加准確地定位信息。
  • 支持同時抓取多個進程的調用棧,避免抓取日志不全的問題,保證更准確地還原故障現場。


(2)應用卡死&系統死機檢測器

 

應用卡死和系統死機也是比較常見的故障,它們一般概率性發生,但是嚴重影響用戶體驗。檢測這類問題的難點在於,如何將軟件故障與用戶感知的死機故障做有效匹配,如果所有軟件bug都上報,開發者會無從下手,而如果漏檢了則又無法准確定位。為此,HarmonyOS DFX對應用卡死&系統死機檢測器,做了以下特殊設計:

  • 在系統中部署了32個檢測點,全面檢測軟件死機故障。
  • 另外增加了4個用戶行為檢測點,准確檢測用戶對死機現象的反應。

 

這些部署的檢測點支持根據不同設備的故障模式靈活部署,如果我們的設備沒有屏幕,那么就不用去部署亮滅屏超時及快速點擊屏幕檢測點。除了測點,判決規則也能夠根據故障檢測結果的大數據分析動態進行調整。通過上述優化,死機故障檢測率從30%提升到了80%。

 

圖11 應用卡死&系統死機檢測

 

5. 觀測剖析


看到這里,大家或許會有個疑問,開發者如何才能使用HarmonyOS DFX所提供的這些日志、事件、跟蹤和故障管理能力呢?那接下來我們就來介紹一下我們的觀測剖析工具,這些工具可以幫助開發者分析定位問題、調試調優。

 

(1)信息導出工具(HiDumper)

 

開發者在開發、調試、測試、維護等過程中,需要頻繁觀測系統的各種信息,一般這些觀測信息都是通過信息導出來獲得。雖然通常操作系統都會提供各類信息導出工具,但是這些工具之間可能規則差異很大,並且很難對自動化測試工具或IDE進行適配。隨着產品種類的增加,系統要導出的信息也變得異常豐富,信息導出接口多、能力雜,適配難的問題也更加凸顯。

 

為了避免上述信息導出問題,HarmonyOS提供了統一的系統信息導出工具HiDumper,相比於其他信息導出工具,HiDumper對命令參數進行了統一的規格化管理,並對所有導出信息進行分類、調度和輸出,減少了后端工具的適配難度。

 

圖12 信息導出工具HiDumper

 

(2)分布式聯動調試工具

 

目前的APP調試一般都是使用本地調試器,每個待調試設備需要一套獨立的調試終端和IDE工具,這顯然不能很好地支持需要多設備之間聯動調試的分布式業務場景。為了應對這種場景,HarmonyOS全新開發了分布式聯動調試工具,將跨設備的日志、事件、跟蹤及故障日志在同一個IDE調試窗口進行關聯展示,給開發者類似單設備調試的窗口體驗。IDE運行時能自動捕獲異常信息,通過異常信息關聯出相關的事件列表和流水日志,再通過異常日志能准確定位到代碼行,大大提高調試效率。

 

圖13 分布式聯動調試

 

(3)分布式調優工具

 

在介紹完觀測和調試工具之后,最后我們再來看一下調優工具。HarmonyOS新開發的分布式調優工具,能准確全棧跟蹤JS/Java/C/C++等多語言調用鏈,記錄跨線程、跨進程、跨設備等不同顆粒度的活動,生成規格化的HiTrace文件。通過將HiTrace文件在IDE圖形化工具中展示,開發者可以很便利地分析分布式應用性能瓶頸。

 

圖14 分布式調優

 

以上就是我們對於HarmonyOS DFX關鍵部分的介紹了,相信大家對於DFX的概念也有了初步的認識。

 

后續,HarmonyOS DFX將在缺陷檢測、故障恢復、大數據分析以及更多調試調優工具方面繼續努力,為開發者提供更多能力,助力開發者開發更卓越的產品,大家敬請期待!

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM