大數據學習之二——hadoop集群機器准備與連接


1.CAP原理,BASE原理

 CAP原理是指在一個分布式系統中,Consistency(一致性)、Avzilability(可用性)、Partition tolerance(分區容錯性),最多只能同時實現兩點,三者不可兼得,所以必須做出取舍。

一致性(C):在分布式系統中的所有數據備份,在同一時刻是否同樣的值。(等同於所有節點訪問同一份最新的數據副本)

可用性(A):在集群中一部分節點故障后,集群整體是否還能響應客戶端的讀寫請求。(對數據更新具備高可用性)

分區容錯性(P):以實際效果而言,分區相當於對通信的時限要求。系統如果不能在時限內達成數據一致性,就意味着發生了分區的情況,必須就當前操作在C和A之間做出選擇。

 

BASE是指基本可用(Basically Available)、軟狀態( Soft State)、最終一致性( Eventual Consistency)。

基本可用(BA):基本可用是指分布式系統在出現故障的時候,允許損失部分可用性,即保證核心可用。

軟狀態(S):軟狀態是指允許系統存在中間狀態,而該中間狀態不會影響系統整體可用性。分布式存儲中一般一份數據至少會有三個副本,允許不同節點間副本同步的延時就是軟狀態的體現。

最終一致性(E):最終一致性是指系統中的所有數據副本經過一定時間后,最終能夠達到一致的狀態。弱一致性和強一致性相反,最終一致性是弱一致性的一種特殊情況。

 

2.數據分割(數據分布方式)

 實現分布式就要考慮如何拆解數據。

數據分割是指把邏輯上是統一整體的數據分割成較小的、可以獨立管理的物理單元進行存儲,以便於重構、重組和恢復,以提高創建索引和順序掃描的效率。數據分割使數據倉庫的開發人員和使用者具有更大的靈活性。

數據的分布方式有:

  哈希方式

  按數據范圍分布

  按數據量分布

  一致性哈希

 

3.副本策略

副本控制協議可以分為兩大類“中心化副本控制協議primary-secondary”和“去中心化副本控制協議”。

primary-secondary中心化副本控制協議的基本思路:由一個中心節點協調副本數據的更新、維護副本之間的一致性。所有副本相關的控制交由中心節點完成,並發控制由中心節點完成,從而簡化一個分布式並發控制問題為一個單機並發控制問題。

其中有且僅有一個副本作為primary副本,除primary意外的副本都作為secondary副本。維護primary副本的節點作為中心節點,中心節點負責維護數據的更新、並發控制、協同副本的一致性。

 

paxos多個節點直接通過操作日志同步數據,如果只有一個節點稱為主節點,就很容易在多個節點之間維護數據一致性。然后主節點可能出現故障,那么就需要選出主節點。Paxos協議就是用於解決多個節點之間的一致性問題。

paxos算法中,分為4種角色:   

 Proposer :提議者 1.Proposer提出議題

Acceptor:決策者 2.Acceptor初步接受或者不接受

Client:產生議題者 3.若初步接受則Proposer再次向Acceptor確認是否最終接受

Learner:最終決策學習者 4.Acceptor最終接受或不接受

 

 Hadoop集群部署(一)

完成集群機器的准備和連接

操作內容:

1.在虛擬機64-14中修改配置文件:/etc/hostname、/etc/hosts和/etc/network/interfaces,實現集群中所有IP和hostname的映射

sudo vim /etc/hostname

sudo vim /etc/hosts

sudo vim /etc/network/interfaces

2.克隆虛擬機,添加集群中多台機器,並同樣修改配置文件,保證同一網段。

3.在master中安裝SSH

在線安裝:sudo apt-get install ssh

在每台機器上生成公鑰私鑰,

ssh-keygen -t rsa -P ‘ ‘

‘’意識是空格,生成了.ssh文件

id_rsa.pub中的內容覆蓋到authorizes_keys中,au這個文件一開始是不存在的。

生成公鑰私鑰之后,無需輸入密碼

4.在slave1機器中做同樣的操作

5.將slave1中的公鑰文件復制到master

slave1上:

 

master中,導入公鑰:

這樣,master就有兩台機器的公鑰了。

master上最全的公鑰,復制到其他機器:

修改slave1authorized_keys文件的權限: 

驗證:在每個虛擬機上都可使用ssh與其他機器無密碼連接:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM