軟考架構師(10)——系統的可靠性分析與設計


全文鏈接:https://www.cnblogs.com/nullering/p/9684820.html

一、可靠性概述

概念:

可靠性分析與設計時系統分析與設計、系統集成階段應該重點考慮的問題。

可靠度、可用度、可維度、平均無故障時間、平均故障修復時間及平均故障間隔時間

可靠度計算:

系統故障模型 

故障千差萬別,但是可以利用故障模型對其故障表現進行抽象

1、邏輯級的故障模型
2、數據結構的故障
3、軟件故障和軟件差錯
4、系統級的故障模型

系統可靠性模型

1:時間模型:

最著名的時間模型是由Shooman提出的可靠性增長模型,這個模型基於這樣的假設:一個軟件中的故障數目在t=0是是常數,隨着故障被糾正,故障數目逐漸減少,在此假設下,一個軟件經過一定時間的調試后剩余故障的數目可用下面的來估計

2:故障植入模型

其目的是以程序的錯誤數作為衡量可靠性的標准

3:數據模型

在數據模型下,對於一個預先確定的輸入環境,軟件的可靠度定義在n次連續運行中軟件完成指定任務的概率

三、可靠性設計(系統配置方法)

1:冗余技術

冗余機制主要分為:結構冗余,信息冗余,時間冗余,冗余附加

 

防止故障導致系統失效,兩種技術: 
1)、故障掩蔽 
防止故障造成差錯

2)、系統重組 
防止差錯導致失效

這兩種技術都建立在資源冗余的基礎上。如前所述,資源冗余包括 硬件冗余、軟件冗余、時間冗余和信息冗余。

(1)硬件冗余

硬件冗余最常用的是三模冗余(TMR),三個相同的模塊接收三個相同的輸入,產生的三個結果送至表決器。表決器為多數表決,一個故障,另兩個正常,則輸出正常結果。顯然,正常的概率更大。

(2)信息冗余

信息冗余指的是在數據中附加冗余的信息以達到故障檢測、故障掩蔽或容錯的目的。 
應用最廣泛的是 
1、海明校驗碼 
2、奇偶校驗碼(CRC)。

冗余技術中最常用的兩種方法是重復線路和備份線路。重復線路指並聯,雙保險;備份則是失敗還能補救。

自檢常配合冗余一起使用。

2:容錯技術

軟件容錯技術中如果遇到故障一般采取兩種策略進行恢復:前向恢復策略和后向恢復策略

1)單機容錯

(1)、自檢

系統在發生非致命性故障時能自動發現故障和確定故障的性質、部位,並自動采取措施更換和隔離產生故障的部件。

 (2)、冗余

2)雙機熱備份

一種軟硬件結合的較高容錯應用方案。由兩台服務器和一個外接共享磁盤陣列櫃、雙機熱備軟件組成。磁盤陣列卡非必須,可以在這兩台服務器中采取RAID(獨立冗余磁盤陣列)卡來代替。

雙機熱備份方案中,操作系統和應用軟件安裝在兩台服務器的本地磁盤,而數據則通過磁盤陣列集中管理和備份。一台服務器出現故障,另一台頂上,實現服務不間斷。

雙機熱備份采用“心跳”方法保證主系統與備用系統的聯系。

雙機熱備份根據兩台服務器的工作方式,有3種不同模式:

(1)、雙機熱備

一台工作,一台時刻准備着。數據同時往兩台機寫入,保持同步。一旦工作機出現故障,備機通過軟件自動或手工切換。
使用最普遍的方式。但由於備機可能長期空閑,浪費。

(2)、雙機互備

兩套相對獨立的應用分別在兩台服務器上運行,彼此互為備機。其中一台出現故障,則另一台可以將對方的應用接管過來。
服務器性能要求高。

(3)、雙機雙工

集群一種形式。兩台服務器均處於活動狀態,同時運行相同的應用(區別於雙機互備,雙機互備的應用是不同的),負載均衡,互為備份。
通常磁盤櫃存儲技術、WEB服務器、FTP服務器應用較多。

3:服務器集群

集群(Cluster)是由兩台以上節點機(服務器)構成的一種松散耦合的計算節點集合,為用戶提供網絡服務或應用程序(包括數據庫、Web服務和文件服務等)的單一客戶視圖,同時提供接近容錯機的故障恢復能力。

1.集群的分類

(1)高性能計算科學集群:以解決復雜的科學計算問題為目的的集群系統,其處理能力與真正超級並行機相等,並且具有優良的性價比。

(2)負載均衡集群:使各節點的負載流量可以在服務器集群中盡可能平均合理地分攤處理,這樣的系統非常適合於運行同一組應用程序的大量用戶。每個節點都可以處理一部分負載,並且可以在節點之間動態分配負載,以實現平衡。

(3)高可用性集群:為保證集群整體服務的高可用,考慮計算硬件和軟件的容錯性。如果高可用性集群中的某個節點發生了故障,那么將由另外的節點代替它。整個系統環境對於用戶是透明的。 

集群技術指一組相互獨立的服務器在網絡中組合成單一的系統進行工作和管理,從而提供高可靠性的服務。

大多數情況下,集群中的所有計算機擁有一個共同的名稱,集群內任一服務都可被所有網絡用戶使用。

集群內各節點服務器通過一個內部局域網相互通信,當一個節點發生故障,該節點所運行的應用被另一個節點自動接管;如果一個應用服務故障,則該應用會被重啟或被其他服務器接管。

三、備份與恢復

1、聯機備份(熱備)
2、脫機備份(冷備)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM