1、什么是集群
集群(cluster)就是一組計算機,他們作為整體向用戶提供一組網絡資源。這些單個的計算機系統就是集群的節點(node)。一個理想的集群是,用戶從不會意識到集群系統底層的節點,在他/她們看來,集群是一個系統,而非多個計算機系統。並且集群系統的管理員可以隨意的增加和刪除集群系統的節點。
2、集群的優點
<1>高擴展性
<2>高可用性HA:集群中的一個節點失效,它的任務可傳遞給其他節點。可以防止單點失效
<3>高性能:負載平衡集群允許系統同時接入更多的用戶
<4>高性能價比:可以采用廉價的復合工業標准的硬件來構造高性能的系統。
3、集群系統的分類
雖然,根據集群系統的不同特征可以有多種分類方法,但是一般把集群系統分為兩類:
<1>高可用性(High Availability)集群,簡稱HA集群。
這類集群致力於提供高度可靠的服務。就是利用集群系統的容錯性對外提供7*24小時不間斷的服務,如高可用的文件服務器、數據庫服務等關鍵應用。
負載均衡集群:使任務可以在集群中盡可能平均的分攤不同計算機處理,充分利用集群的處理能力,提高對任務的處理效率。在實際應用中這幾種集群類型可能混合使用,以提供更高穩定的服務,如在一個使用網絡流量負載均衡的集群中,就會包含高可用的網絡文件系統、高可用的網絡服務。
<3>性能計算(High Perfervidmance Computing)集群,簡稱HPC集群,也稱為計算集群。
在這種集群運行的是專門開發的並行應用程序,它可以把一個問題的數據分不到多台計算機上,利用這些計算機的共同資源來完成任務,從而可以解決單機不能勝任的工作(如果問題規模太大,單機計算速度太慢)。
這類集群致力於提供了單個計算機所不能提供的強大的計算能力。如天氣預報、石油勘探與油藏模擬、分子模擬、生物計算等。
4、什么是高可用性(HA)
計算機系統的可用性(availability)是通過系統的可靠性(reliability)和可維護性(maintainability)來度量的。工程上通常采用平均無故障時間(MTTF)來度量系統的可靠性,用平均時間(MTTR)來度量系統的可維護性。於是可用性定義為:MTTF/(MTTF+MTTR)*100%
5、負載均衡服務器的高可用性
為了屏蔽負載均衡服務器失效,需要建立一個備份機。主服務器和備份機上都運行High Availability監控程序,通過傳送諸如“I am alive”這樣的信息來監控對方的運行狀況。當備份機不能在一定的時間內收到這樣的信息時,它就接管主服務器IP並繼續提供服務;當備份管理器又從主管理器收到“I am alive”這樣的信息時,他就釋放IP地址,這樣的主管理器就開開始再次進行集群管理的工作了。為在主服務器失效的情況下系統能正常工作,我們在主、備份機之間實現負載集群系統配置信息的同步和備份,保持兩者系統的基本一致。
6、HA的容錯備援運作過程
自動偵測(Auto-Detect)階段 由主機上的軟件通過冗余偵測線,經由復雜的偵聽程序。邏輯判斷,互相偵測對方運行情況,所檢查的項目有:主機硬件(CPU和周邊)、主機網絡、主機操作系統、數據引擎以及其他應用程序、主機與磁盤陣列連線。為確保偵測的正確性,而防止錯我的判斷,可設定安全偵測時間、包括偵測時間間隔、偵測次數以調整安全系數,並且由主機的冗余通信連線,將所匯集的訊息記錄下來,以供維護參考。
自動切換(Auto-Switch)階段 某一主機如果確認對方故障,則正常主機繼續進行原來的任務,還將依據各種容錯備援模式接管預先設定的備援作業程序,並進行后續的程序以及服務。
自動恢復(Auto-Recovery)階段 在正常主機代替故障機工作后,故障機可離線進行修復工作。在故障主機修復后,通過冗余通訊線與原來主機連線,自動切換回修復完成的主機上。整個回復過程完成有EDI-HA自動完成,亦可依靠預先配置,選擇回復動作為半自動或不回復。
7、HA三種工作方式
<1>主從方式(非對稱方式)
工作原理:主機工作,備機處於監控狀況;當主機宕機時,備機接管主機的一切工作,待主機恢復正常后,按使用者的設定以自動或手動方式將服務切換到主機上運行,數據的一致性通過共享存儲系統解決。
<2>雙機雙工方式(互備互援)
工作原理:兩台主機同時運行各自的服務工作且互相檢測情況,當任一台主機宕機時,另一台主機立即接管它的一切工作,保證工作實時,應用服務系統的關鍵數據存放在共享存儲系統中。
<3>集群工作方式(多服務器互備方式)
工作原理:多台主機一起工作,各自運行一個或幾個服務,各為服務定義一個或多個備用主機,當某個主機故障時,運行在其上的服務就可以被其它主機接管。