手把手教你搭建一個Elasticsearch集群


一、為何要搭建 Elasticsearch 集群

凡事都要講究個為什么。在搭建集群之前,我們首先先問一句,為什么我們需要搭建集群?它有什么優勢呢?

(1)高可用性

Elasticsearch 作為一個搜索引擎,我們對它的基本要求就是存儲海量數據並且可以在非常短的時間內查詢到我們想要的信息。所以第一步我們需要保證的就是 Elasticsearch 的高可用性,什么是高可用性呢?它通常是指,通過設計減少系統不能提供服務的時間。假設系統一直能夠提供服務,我們說系統的可用性是 100%。如果系統在某個時刻宕掉了,比如某個網站在某個時間掛掉了,那么就可以它臨時是不可用的。所以,為了保證 Elasticsearch 的高可用性,我們就應該盡量減少 Elasticsearch 的不可用時間。

那么怎樣提高 Elasticsearch 的高可用性呢?這時集群的作用就體現出來了。假如 Elasticsearch 只放在一台服務器上,即單機運行,假如這台主機突然斷網了或者被攻擊了,那么整個 Elasticsearch 的服務就不可用了。但如果改成 Elasticsearch 集群的話,有一台主機宕機了,還有其他的主機可以支撐,這樣就仍然可以保證服務是可用的。

那可能有的小伙伴就會說了,那假如一台主機宕機了,那么不就無法訪問這台主機的數據了嗎?那假如我要訪問的數據正好存在這台主機上,那不就獲取不到了嗎?難道其他的主機里面也存了一份一模一樣的數據?那這豈不是很浪費嗎?

為了解答這個問題,這里就引出了 Elasticsearch 的信息存儲機制了。首先解答上面的問題,一台主機宕機了,這台主機里面存的數據依然是可以被訪問到的,因為在其他的主機上也有備份,但備份的時候也不是整台主機備份,是分片備份的,那這里就又引出了一個概念——分片。

分片,英文叫做 Shard,顧名思義,分片就是對數據切分成了多個部分。我們知道 Elasticsearch 中一個索引(Index)相當於是一個數據庫,如存某網站的用戶信息,我們就建一個名為 user 的索引。但索引存儲的時候並不是整個存一起的,它是被分片存儲的,Elasticsearch 默認會把一個索引分成五個分片,當然這個數字是可以自定義的。分片是數據的容器,數據保存在分片內,分片又被分配到集群內的各個節點里。當你的集群規模擴大或者縮小時, Elasticsearch 會自動的在各節點中遷移分片,使得數據仍然均勻分布在集群里,所以相當於一份數據被分成了多份並保存在不同的主機上。

那這還是沒解決問題啊,如果一台主機掛掉了,那么這個分片里面的數據不就無法訪問了?別的主機都是存儲的其他的分片。其實是可以訪問的,因為其他主機存儲了這個分片的備份,叫做副本,這里就引出了另外一個概念——副本。

副本,英文叫做 Replica,同樣顧名思義,副本就是對原分片的復制,和原分片的內容是一樣的,Elasticsearch 默認會生成一份副本,所以相當於是五個原分片和五個分片副本,相當於一份數據存了兩份,並分了十個分片,當然副本的數量也是可以自定義的。這時我們只需要將某個分片的副本存在另外一台主機上,這樣當某台主機宕機了,我們依然還可以從另外一台主機的副本中找到對應的數據。所以從外部來看,數據結果是沒有任何區別的。

一般來說,Elasticsearch 會盡量把一個索引的不同分片存儲在不同的主機上,分片的副本也盡可能存在不同的主機上,這樣可以提高容錯率,從而提高高可用性。

但這時假如你只有一台主機,那不就沒辦法了嗎?分片和副本其實是沒意義的,一台主機掛掉了,就全掛掉了。

(2)健康狀態

針對一個索引,Elasticsearch 中其實有專門的衡量索引健康狀況的標志,分為三個等級:

  • green,綠色。這代表所有的主分片和副本分片都已分配。你的集群是 100% 可用的。

  • yellow,黃色。所有的主分片已經分片了,但至少還有一個副本是缺失的。不會有數據丟失,所以搜索結果依然是完整的。不過,你的高可用性在某種程度上被弱化。如果更多的分片消失,你就會丟數據了。所以可把 yellow 想象成一個需要及時調查的警告。

  • red,紅色。至少一個主分片以及它的全部副本都在缺失中。這意味着你在缺少數據:搜索只能返回部分數據,而分配到這個分片上的寫入請求會返回一個異常。

如果你只有一台主機的話,其實索引的健康狀況也是 yellow,因為一台主機,集群沒有其他的主機可以防止副本,所以說,這就是一個不健康的狀態,因此集群也是十分有必要的。

(3)存儲空間

另外,既然是群集,那么存儲空間肯定也是聯合起來的,假如一台主機的存儲空間是固定的,那么集群它相對於單個主機也有更多的存儲空間,可存儲的數據量也更大。

所以綜上所述,我們需要一個集群!

二、詳細了解 Elasticsearch 集群

接下來我們再來了解下集群的結構是怎樣的。

首先我們應該清楚多台主機構成了一個集群,每台主機稱作一個節點(Node)。

如圖就是一個三節點的集群:

在圖中,每個 Node 都有三個分片,其中 P 開頭的代表 Primary 分片,即主分片,R 開頭的代表 Replica 分片,即副本分片。所以圖中主分片 1、2,副本分片 0 儲存在 1 號節點,副本分片 0、1、2 儲存在 2 號節點,主分片 0 和副本分片 1、2 儲存在 3 號節點,一共是 3 個主分片和 6 個副本分片。同時我們還注意到 1 號節點還有個 MASTER 的標識,這代表它是一個主節點,它相比其他的節點更加特殊,它有權限控制整個集群,比如資源的分配、節點的修改等等。

這里就引出了一個概念就是節點的類型,我們可以將節點分為這么四個類型:

  • 主節點:即 Master 節點。主節點的主要職責是和集群操作相關的內容,如創建或刪除索引,跟蹤哪些節點是群集的一部分,並決定哪些分片分配給相關的節點。穩定的主節點對集群的健康是非常重要的。默認情況下任何一個集群中的節點都有可能被選為主節點。索引數據和搜索查詢等操作會占用大量的cpu,內存,io資源,為了確保一個集群的穩定,分離主節點和數據節點是一個比較好的選擇。雖然主節點也可以協調節點,路由搜索和從客戶端新增數據到數據節點,但最好不要使用這些專用的主節點。一個重要的原則是,盡可能做盡量少的工作。

  • 數據節點:即 Data 節點。數據節點主要是存儲索引數據的節點,主要對文檔進行增刪改查操作,聚合操作等。數據節點對 CPU、內存、IO 要求較高,在優化的時候需要監控數據節點的狀態,當資源不夠的時候,需要在集群中添加新的節點。

  • 負載均衡節點:也稱作 Client 節點,也稱作客戶端節點。當一個節點既不配置為主節點,也不配置為數據節點時,該節點只能處理路由請求,處理搜索,分發索引操作等,從本質上來說該客戶節點表現為智能負載平衡器。獨立的客戶端節點在一個比較大的集群中是非常有用的,他協調主節點和數據節點,客戶端節點加入集群可以得到集群的狀態,根據集群的狀態可以直接路由請求。

  • 預處理節點:也稱作 Ingest 節點,在索引數據之前可以先對數據做預處理操作,所有節點其實默認都是支持 Ingest 操作的,也可以專門將某個節點配置為 Ingest 節點。

以上就是節點幾種類型,一個節點其實可以對應不同的類型,如一個節點可以同時成為主節點和數據節點和預處理節點,但如果一個節點既不是主節點也不是數據節點,那么它就是負載均衡節點。具體的類型可以通過具體的配置文件來設置。

 

三、怎樣搭建 Elasticsearch 6.5.4集群

1-1、准備環境

采用三台CentOS6.5部署Elasticsearch集群,部署Elasticsearch集群就不得不提索引分片,以下是索引分片的簡單介紹。

系統  節點名稱 IP地址
      centos 6.5        els-node1       192.168.60.201     
      centos 6.5     els-node2      192.168.60.202
      centos 6.5     els-node3      192.168.60.203

 

 

 

 

ES集群中索引可能由多個分片構成,並且每個分片可以擁有多個副本。通過將一個單獨的索引分為多個分片,我們可以處理不能在一個單一的服務器上面運行的大型索引,簡單的說就是索引的大小過大,導致效率問題。不能運行的原因可能是內存也可能是存儲。由於每個分片可以有多個副本,通過將副本分配到多個服務器,可以提高查詢的負載能力。

由於 Elasticsearch 6.5.4要求linux 內核版本要高於3.5+,所以我們先要將系統內核升級至3.5+,詳細請移步

CentOS6.5升級內核至4.4

1-2、Elasticsearch集群搭建

1.安裝JDK

Elasticsearch是基於Java開發是一個Java程序,運行在Jvm中,所以第一步要安裝JDK

yum install -y java-1.8.0-openjdk-devel  # 安裝1.8或1.8以上版本

2.下載elasticsearch

https://www.elastic.co/cn/downloads/elasticsearch,是ELasticsearch的官方站點,如果需要下載最新的版本,進入官網下載即可。可以下載到本地電腦然后再導入CentOS中,也可以直接在CentOS中下載。

wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.5.4.rpm

3.安裝elasticsearch

rpm -ivh elasticsearch-6.5.4.rpm

4.配置目錄

安裝完畢后會生成很多文件,包括配置文件日志文件等等,下面幾個是最主要的配置文件路徑

/etc/elasticsearch/elasticsearch.yml                            # els的配置文件
/etc/elasticsearch/jvm.options                                  # JVM相關的配置,內存大小等等
/etc/elasticsearch/log4j2.properties                            # 日志系統定義

/usr/share/elasticsearch                                        # elasticsearch 默認安裝目錄
/var/lib/elasticsearch                                          # 數據的默認存放位置

5.創建用於存放數據與日志的目錄

數據文件會隨着系統的運行飛速增長,所以默認的日志文件與數據文件的路徑不能滿足我們的需求,那么手動創建日志與數據文件路徑,可以使用NFS、可以使用Raid等等方便以后的管理與擴展

mkdir -p /opt/elasticsearch/data
mkdir -p /opt/elasticsearch/log
chown -R elasticsearch.elasticsearch /opt/elasticsearch/*

6.集群配置

集群配置中最重要的兩項是node.namenetwork.host,每個節點都必須不同。其中node.name是節點名稱主要是在Elasticsearch自己的日志加以區分每一個節點信息。
discovery.zen.ping.unicast.hosts是集群中的節點信息,可以使用IP地址、可以使用主機名(必須可以解析)。

vim /etc/elasticsearch/elasticsearch.yml

cluster.name: my-els                               # 集群名稱
node.name: els-node1                               # 節點名稱,僅僅是描述名稱,用於在日志中區分

path.data: /opt/elasticsearch/data                 # 數據的默認存放路徑
path.logs: /opt/elasticsearch/log                  # 日志的默認存放路徑

network.host: 192.168.60.201                        # 當前節點的IP地址
http.port: 9200                                    # 對外提供服務的端口,9300為集群服務的端口
#添加如下內容
#culster transport port
transport.tcp.port: 9300
transport.tcp.compress: true

discovery.zen.ping.unicast.hosts: ["192.168.60.201", "192.168.60.202","192.168.60.203"]       
# 集群個節點IP地址,也可以使用els、els.shuaiguoxia.com等名稱,需要各節點能夠解析

discovery.zen.minimum_master_nodes: 2              # 為了避免腦裂,集群節點數最少為 半數+1

注意:不要在elasticsearch.yml中添加index開頭的配置項。如

#index.number_of_shards: 5
#index.number_of_replicas: 1

7.JVM配置 

由於Elasticsearch是Java開發的,所以可以通過/etc/elasticsearch/jvm.options配置文件來設定JVM的相關設定。如果沒有特殊需求按默認即可。
不過其中還是有兩項最重要的-Xmx1g-Xms1gJVM的最大最小內存。如果太小會導致Elasticsearch剛剛啟動就立刻停止。太大會拖慢系統本身。

vim /etc/elasticsearch/jvm.options

-Xms1g                                                  # JVM最大、最小使用內存
-Xmx1g

8.使用ROOT賬戶執行以下命令

elasticsearch的相關配置已經完成,下面需要啟動elasticsearch集群。但是由於安全的考慮,elasticsearch不允許使用root用戶來啟動,所以需要創建一個新的用戶,並為這個賬戶賦予相應的權限來啟動elasticsearch集群。

創建ES運行用戶

# 創建用戶組
groupadd es
# 創建用戶並添加至用戶組
useradd es -g es 
# 更改用戶密碼(輸入 123123)
passwd es

修改ES目錄權限

chown -R es:es  /etc/share/elasticsearch/
chown -R es:es  /usr/share/elasticsearch/
chown -R es:es  /var/log/elasticsearch/      # 以上操作都是為了賦予es用戶操作權限

啟動服務

# 需切換為es用戶
su es
# 啟動服務(當前的路徑為:/usr/share/elasticsearch/)
./bin/elasticsearch

后台運行ES

可以加入-p 命令 讓es在后台運行, -p 參數 記錄進程ID為一個文件

# 設置后台啟動
./bin/elasticsearch -p /tmp/elasticsearch-pid -d

結束進程

# 查看運行的pid
cat /tmp/elasticsearch-pid && echo
# 結束進程
kill -SIGTERM {pid}

驗證一下服務是否正常

curl -i "http://192.168.60.200:9200"

 

二、安裝head插件

Elasticsearch Head Plugin:head插件是一個ES集群的web前端工具,它提供可視化的頁面方便用戶查看節點信息,對ES進行各種操作,如查詢、刪除、瀏覽索引等。

1、安裝相關依賴包

(1)安裝head

由於head插件本質上還是一個nodejs的工程,因此需要安裝node,使用npm來安裝依賴的包。(npm可以理解為maven)

wget https://nodejs.org/dist/v9.3.0/node-v9.3.0-linux-x64.tar.xz  # 下載nodejs最新的bin包
xz -d node-v9.3.0-linux-x64.tar.xz  # 解壓包
tar -xf node-v9.3.0-linux-x64.tar  # 解壓包
ln -s ~/node-v9.3.0-linux-x64/bin/node /usr/bin/node # 部署bin文件,先確定nodejs的bin路徑
ln -s ~/node-v9.3.0-linux-x64/bin/npm /usr/bin/npm

測試:

node -v npm

npm加速 全局安裝cnpm 指定來源淘寶鏡像

npm install -g cnpm --registry=https://registry.npm.taobao.org

(2)安裝grunt(安裝完elasticsearch-head后安裝)

grunt是一個很方便的構建工具,可以進行打包壓縮、測試、執行等等的工作,5.0里的head插件就是通過grunt啟動的。因此需要安裝一下grunt:

cd  /usr/local/elasticsearch-head
npm install -g grunt-cli  //執行后會生成node_modules文件夾
npm install

注:

(1)5.0以上,elasticsearch-head 不能放在elasticsearch的 pluginsmodules 目錄下,否則elasticsearch啟動會報錯。

(2)這里如果grunt沒有安裝成功也無所謂,可以通過其他方式啟動elasticsearch-head插件(npm run start)。

 

2、安裝elasticsearch-head

另外:5.0以前的版本可以通過elasticseach自帶的plugin命令 安裝elasticsearch-head,5.0以后不支持了。只可以去下載elasticsearch-head對應的源碼包去安裝。

cd /usr/local/
git clone git://github.com/mobz/elasticsearch-head.git
cd elasticsearch-head
npm install

配置:

vi _site/app.js

# 修改 this.base_uri = this.config.base_uri || this.prefs.get("app-base_uri") || "http://localhost:9200";   # 在文件的4354行附近
# 這里的 localhost 是指進入elasticsearch-head頁面時默認訪問的ES集群地址,把她修改為其中一台ES節點的地址即可
this.base_uri = this.config.base_uri || this.prefs.get("app-base_uri") || "http://192.168.60.200:9200";

還要修改Head主目錄下的Gruntfile.js,由於默認文件中是沒有hostname屬性的,我們需要手動添加:

 

為什么需要修改配置文件: head插件連接elasticsearch需要注意的點: 因為head插件是一個獨立進程,啟動后是一個獨立的服務器外加端口,比如我的虛擬機ip地址:http://192.168.0.111:9100/ 而elasticsearch啟動后也是一個獨立的進程,ip地址:http://192.168.0.111:9200/ 這樣兩個獨立進程,雖然服務器ip地址相同,但是端口不同,此時會發生跨域的情況。。 於是官方給出這樣一段話,我們在對elasticsearch啟動的時候追加兩個配置文件屬性即可防止跨域。

即:在elasticsearch.yml文件的最后,添加如下內容:

http.cors.enabled: true http.cors.allow-origin: "*"

配置完畢。

3、啟動elasticsearch集群

在三台機器上,分別啟動elasticsearch即可。

./bin/elasticsearch

4、啟動elasticsearch-head

cd /usr/local/elasticsearch-head //先跳轉到head目錄下 grunt server //若想在后台運行,結尾追加“&”,也可以使用 npm run start啟動

5、訪問elasticsearch-head界面

http://192.168.60.200:9100

可以看到,三台機器組成了es集群。集群的狀態為綠色,健康狀態。帶星標的節點els-node1為主節點(選舉)。還可以做一些增加/刪除索引,查詢等操作。

下面還有ik分詞器的安裝,未完待續。。。

 

參考文檔:

https://mp.weixin.qq.com/s/eyfApIiDeg3qv-BD9hBNvw

https://my.oschina.net/u/2403594/blog/2992908

https://my.oschina.net/linch/blog/1816712


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM