Elasticsearch集群中處理大型日志流的幾個常用概念

本文轉載自查看原文 2016-02-25 12:01 1861 雜記/ Elasticsearch

之前對於CDN的日志處理模型是從
logstash agent==>>redis==>>logstash index==>>elasticsearch==>>kibana3，對於elasticsearch集群搭建，可以把索引進行分片存儲，一個索引可以分成若干個片，分別存儲到集群里面，而對於集群里面的負載均衡，副本分配，索引動態均衡（根據節點的增加或者減少）都是elasticsearch自己內部完成的，一有情況就會重新進行分配。
下面先是介紹幾個關於elasticsearch的幾個名詞

cluster
代表一個集群，集群中有多個節點，其中有一個為主節點，這個主節點是可以通過選舉產生的，主從節點是對於集群內部來說的。es的一個概念就是去中心化，字面上理解就是無中心節點，這是對於集群外部來說的，因為從外部來看es集群，在邏輯上是個整體，你與任何一個節點的通信和與整個es集群通信是等價的。

shards
代表索引分片，es可以把一個完整的索引分成多個分片，這樣的好處是可以把一個大的索引拆分成多個，分布到不同的節點上。構成分布式搜索。分片的數量只能在索引創建前指定，並且索引創建后不能更改。

replicas
代表索引副本，es可以設置多個索引的副本，副本的作用一是提高系統的容錯性，當個某個節點某個分片損壞或丟失時可以從副本中恢復。二是提高es的查詢效率，es會自動對搜索請求進行負載均衡。

recovery
代表數據恢復或叫數據重新分布，es在有節點加入或退出時會根據機器的負載對索引分片進行重新分配，掛掉的節點重新啟動時也會進行數據恢復。

river
代表es的一個數據源，也是其它存儲方式（如：數據庫）同步數據到es的一個方法。它是以插件方式存在的一個es服務，通過讀取river中的數據並把它索引到es中，官方的river有couchDB的，RabbitMQ的，Twitter的，Wikipedia的，river這個功能將會在后面的文件中重點說到。

gateway
代表es索引的持久化存儲方式，es默認是先把索引存放到內存中，當內存滿了時再持久化到硬盤。當這個es集群關閉再重新啟動時就會從gateway中讀取索引數據。es支持多種類型的gateway，有本地文件系統（默認），分布式文件系統，Hadoop的HDFS和amazon的s3雲存儲服務。

discovery.zen
代表es的自動發現節點機制，es是一個基於p2p的系統，它先通過廣播尋找存在的節點，再通過多播協議來進行節點之間的通信，同時也支持點對點的交互。

Transport
代表es內部節點或集群與客戶端的交互方式，默認內部是使用tcp協議進行交互，同時它支持http協議（json格式）、thrift、servlet、memcached、zeroMQ等的傳輸協議（通過插件方式集成）。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Websphere中的幾個常用概念 ElasticSearch 集群基本概念及常用操作匯總（建議收藏）迅雷中幾個概念語音信號處理入門系列(2)——信號處理中的幾個關鍵概念 Webservice 中涉及的幾個概念 elasticsearch（四）之 elasticsearch常用的一些集群命令在Python中處理大型文件的最快方法日志分析系統 - Kubernetes部署ElasticSearch集群 Flink基礎（十八）：Table API 和 Flink SQL（三）流處理中的特殊概念 APP性能測試中的幾個重要概念