什么是問題根因分析
根本原因分析(root cause analysis):通過調查和分析問題哪里出錯、為什么出錯,尋求防止差錯事故再次發生的必要措施,從而提高服務安全和質量。
根因分析目標
- 問題(發生了什么)
- 原因(為什么發生)
- 措施(什么方法能夠阻止問題再次發生)
WHY-WHY分析法(5WHY,5W)
5W分析:是一個診斷性技術,用於識別和說明因果關系鏈,它的根源會恰當地定義問題。不斷提問為什么前一個事件會發生,直到回答“沒有好的理由”或者直到一個新的故障模式被發現才停止提問。解釋根本原因以防止問題重演。具體步驟如下:
一、把握現狀
步驟1:識別問題
- 我知道什么?(大、模糊或復雜問題 ——> 詳細事實)
步驟2:澄清問題
- 實際發生什么?
- 應該發生什么?
步驟3:分解問題
- 還知道什么?
- 是否存在其他子問題?
步驟4:查找原因要點(PoC)
- 需要去哪里?
- 需要看什么?
- 誰可能掌握有關問題的信息?
步驟5:把握問題的傾向
- 誰?
- 哪個?
- 什么時間?
- 多次頻次?
- 多大量?
二、原因調查
步驟6:識別並確認異常現象的直接原因
- 問題為什么發生時?
- 是否能看見問題直接原因?
- 如果不能,懷疑什么是潛在原因?
- 怎么核實最可能的潛在原因?
- 怎么確認直接原因?
步驟7:使用5WHY調查方法來建立一個通向根本原因的原因/效果關系鏈
- 處理直接原因能防止再發生嗎?
- 如果不能,是否可以發現下一級原因?
- 如果不能,我懷疑什么是下一級原因?
- 怎么才能核實和確認下一級有原因呢?
- 處理這一級原因會防止再發生嗎?
如果不行,繼續問“為什么”直到找到根本原因。
在必須處理以防止再發生的原因處停止,問:
- 我已經找到問題的根本原因了嗎?
- 我能通過處理這個原因來防止再發生嗎?
- 這個原因能通過以事實為依據的原因/效果關系鏈與問題聯系起來嗎?
- 這個鏈通過了“因此”檢驗了嗎?
- 如果我再問“為什么”會進入另一個問題嗎?
還需要使用5WHY回來這些問題:
- 為什么我們有了這個問題?
- 為什么問題會到達顧客/用戶處?(為什么沒有發現問題?)
- 為什么我們的系統允許問題發生?
三、問題糾正
步驟8:采取明確的措施來處理問題
- 使用臨時措施去處理異常現象直到根本原因能夠被處理。
- 實施糾正措施來處理根本原因以防止再發生。
- 跟蹤並核實結果:解決方案是否有效?如何確認?
四、通過“差錯防止”過程進行預防
- 采取明確措施確保問題不會再發生,典型的措施是“差錯防止”過程。
- 銘記吸取到的教訓。
10why問題分析
- 1w:這個問題是什么?有什么影響?
- 2w:為什么會出現這個問題?什么場景會出現這個問題?
- 3w:這個問題在哪個階段發現?——是否能更早?
- 4w:缺陷是在哪個階段引入?
- 5w:為什么會在這個階段引入問題?
- 6w:(how)如何避免引入這個問題?
- 7w:應該在哪個階段發現問題?
- 8w:為什么沒有在這個階段發現問題?
- 9w:(how)如何才能在這個階段發現問題?
- 10w:(how)如何基於風險測試過程,提前預估到這樣的產品風險?
改進/優化措施思路
-
問題如何規避?
- 事情重來,過程哪些可以優化?
- 換一個人,是否能避免?
-
如果不能規避,哪個階段最容易發現?如何保障這個階段及時發現問題?
- 發布前——是否有工具/機制及時發現問題(如代碼掃描)?發布性用例?
- 灰度——監控、反饋機制?
- 線上——監控、數據、反饋機制、反饋通道
-
問題處理過程是否可優化?
- 有效——解決過程決策是否正確?決策過程具體怎樣?
- 效率——處理速度?哪里可以提效?
-
換位思考,如果是我會怎么做
-
結果負責:如何保障結果/產出
-
吸取教訓:經驗沉淀