ElasticSearch高可用集群環境搭建和分片原理


1、ES是如何實現分布式高並發全文檢索
2、簡單介紹ES分片Shards分片技術
3、為什么ES主分片對應的備分片不在同一台節點存放
4、索引的主分片定義好后為什么不能做修改
5、ES如何實現高可用容錯方案
6、搭建Linux上環境三台ES高可用集群環境

 

ES是如何解決高並發

ES是一個分布式全文檢索框架,隱藏了復雜的處理機制,核心內容 分片機制、集群發現、分片負載均衡請求路由。

 

ES基本概念名詞

Cluster

 

代表一個集群,集群中有多個節點,其中有一個為主節點,這個主節點是可以通過選舉產生的,主從節點是對於集群內部來說的。es的一個概念就是去中心化,字面上理解就是無中心節點,這是對於集群外部來說的,因為從外部來看es集群,在邏輯上是個整體,你與任何一個節點的通信和與整個es集群通信是等價的。

 

Shards

代表索引分片,es可以把一個完整的索引分成多個分片,這樣的好處是可以把一個大的索引拆分成多個,分布到不同的節點上。構成分布式搜索。分片的數量只能在索引創建前指定,並且索引創建后不能更改。

 

replicas

代表索引副本,es可以設置多個索引的副本,副本的作用一是提高系統的容錯性,當某個節點某個分片損壞或丟失時可以從副本中恢復。二是提高es的查詢效率,es會自動對搜索請求進行負載均衡。

 

Recovery

代表數據恢復或叫數據重新分布,es在有節點加入或退出時會根據機器的負載對索引分片進行重新分配,掛掉的節點重新啟動時也會進行數據恢復。

 

 

ES為什么要實現集群

ES集群中索引可能由多個分片構成,並且每個分片可以擁有多個副本。通過將一個單獨的索引分為多個分片,我們可以處理不能在一個單一的服務器上面運行的大型索引,簡單的說就是索引的大小過大,導致效率問題。不能運行的原因可能是內存也可能是存儲。由於每個分片可以有多個副本,通過將副本分配到多個服務器,可以提高查詢的負載能力

 

GET _cat/health

 

 

ES集群核心原理分析:

 數據存儲。

1、每個索引會被分成多個分片shards進行存儲,默認創建索引是分配5個分片進行存儲

      每個分片都會分布式部署在多個不同的節點上進行部署,該分片成為primary shards。    

   注意:索引的主分片primary shards定義好后,后面不能做修改。  

 

2、為了實現高可用數據的高可用,主分片可以有對應的備分片replics shards,replic shards分片承載了負責容錯、以及請求的負載均衡。

  注意: 每一個主分片為了實現高可用,都會有自己對應的備分片,主分片對應的備分片不能存放同一台服務器上(單台ES沒有備用分片的)。主分片primary shards可以和其他replics shards存放在同一個node節點上。

   

  在往主分片服務器存放數據時候,會對應實時同步到備用分片服務器:

  

 

 

  但是查詢時候,所有(主、備)都進行查詢。

    主的可以存放副的:

 

 

 

 

 Node1 :P1+P2+R3組成了完整 的數據! 分布式存儲

 

 

EA核心存放的核心數據是索引!

如果ES實現了集群的話,會將單台服務器節點的索引文件使用分片技術,分布式存放在多個不同的物理機器上。 

分片就是將數據拆分成多台節點進行存放

在ES分片技術中,分為主(primary)分片、副(replicas)分片。這樣做是為了容錯性

5: 每個索引拆分5片存儲

1:備份一份

 在ES中每一個主分片都對應一個副分片

   三個節點 6/3 為 2  每個節點存放兩個分片

    number_of_shards=3 3+3 =6

 

 

在創建索引時候,主分片數量定義好后是不能修改的

修改副的分片 number_of_replica 2  3個主分片6個備分片  一共9個

   

 

 

  官方建議 節點的平方數 !!

     主分片3  備份1     主分片3個 ,每個主分片對應的1個備分片=3*2=6

     主分片3  備份2      主分片3個 ,每個主分片對應的2個備分片=3*3=9

 

 

 

 

 

數據路由 

 

documnet routing(數據路由)

當客戶端發起創建document的時候,es需要確定這個document放在該index哪個shard上。這個過程就是數據路由。

路由算法:shard = hash(routing) % number_of_primary_shards

如果number_of_primary_shards在查詢的時候取余發生的變化,無法獲取到該數據

畫圖演示
注意:索引的主分片數量定義好后,不能被修改

      

 

已知主分片數量為3,

路由算法: shard = hash(routing) % 主分片數量3

分片位置 p1 =  % 3 , p2 =2%3 , p0=3%3

 

routing 就是采用 id

在查詢時候,底層根據文檔 id % 主分片數量獲取分片位置

 

 計算的算法 取模時候 除數改變了 查詢時候 怎么辦?! 所以 不能亂改啊~   

  

集群環境的搭建

 

如果連接P0查詢不到的話  會自動轉發到另一台去查詢。

  

    集群的搭建:核心思想無非就是 配置不同的節點id  配置形同集群名稱

    4台服務器實現集群的話,會配置三個不同的elasticsearch.yml

 配置:    

vi elasticsearch.yml
cluster.name: myes ###保證三台服務器節點集群名稱相同
node.name: node-1 #### 每個節點名稱不一樣 其他兩台為node-2 ,node-3
network.host: 192.168.91.7 #### 實際服務器ip地址   實際項目外網ip 哦
discovery.zen.ping.unicast.hosts: ["192.168.91.7", "192.168.91.8","192.168.91.9"]

##多個服務集群ip
discovery.zen.minimum_master_nodes: 1

 

集群通信是走9300端口通信

 

注意如果你是虛擬機克隆data文件會導致數據不同步

報該錯誤解決辦法  進入到data中 刪除 node這個目錄 重啟就OK了

failed to send join request to master

因為克隆導致data文件也克隆呢,直接清除每台服務器data文件。

 

 

 

啟動配置好的三台節點:

 

 隨便訪問一台主機: http://192.168.91.8:9200/_cat/nodes?pretty

 驗證:

帶 *  為master

如果某一台宕機了 可以自動選舉~~ *會轉移哦

ES分布式做的特別好~

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM