本篇文章對 Elasticsearch 做了基本介紹,在后續將通過專欄的方式持續更新,本系列以 Elasticsearch7 作為主要的講解版本,歡迎各位大佬指正,共同學習進步!
一般涉及大型數據庫的電子商務和搜索引擎的產品都面臨這樣一個問題,產品信息檢索花費時間太長。這不良的用戶體驗,可能導致失去潛在的客戶。這種滯后搜索歸因於產品設計所使用到關系數據庫,數據分散在多個表中,關系型數據處理這些表中數據獲取搜索結果時工作速度是遠遠不能瞞足。可以說,現在的企業正在尋找數據存儲的替代品,以期促進快速檢索,而 Elasticsearch(ES)的出現很好解決這些問題。
1、什么是 Elasticsearch?
Elasticsearch 是基於 Lucene 的搜索引擎。它提供了一個分布式多用戶能力的全文搜索引擎,基於RESTful Web接口。
換句話說,Elasticsearch 是用 Java 開發的開源,獨立數據庫服務器。基本上,它用於全文搜索和分析。它從各種來源獲取數據,並將其存儲為針對搜索進行了高度優化的復雜格式。如上所述,Elasticsearch 將 Apache Lucene 作為搜索的核心。由於 Lucene 只是一個庫,使用起來有一定難度。但是你不必擔心,Elasticsearch 對搜索引擎操作都進行封裝 ,可以通過使用對應的 Restful 的 API 進行操作。使用 Elasticsearch 可以快速有效地存儲,搜索和分析大量數據,而且在處理半結構化數據(即自然語言)時特別有用。
2、Elasticsearch 能做什么?
平時我們在 GitHub 上進行搜索的時候,Github 不僅可以幫我們找到相隔的代碼產庫,還可以幫助實現代碼級的搜索及搜索詞的高亮的顯示,。當你在網上購物的時候,它也可以幫助你做商品的推薦。當你下班的時候,Elasticsearch 可以幫助你定位附件的乘客和司機,幫助平台優化調度,除了搜索,結合 Kibana、Logstash、Beats 的 ELK(Elastic Stack) 還被廣泛使用在大數據近實時分析的領域,包括了日志分析、指標監控、信息安全等多個領域,它可以幫助你探索海量的、結構化的、非結構化的數據,按需創建是可視化報表,對監控數據設置報警閥值。
3、Elasticsearch 5、6、7版本特性史
V5.x
- Lucene 6.x,
- 性能提升,默認打分機制從 TF-IDF 改為 BM 25
- 支持 Ingest 節點、 Completion suggested 、Java REST 客戶端
- Type 標記成 deprecated,支持了 Keyword 的類型
- 性能優化
- 減少了內部爭競爭,防止對同一文檔進行並發更新的競爭以及在同步事務日志時減少了鎖定要求,索引吞吐量已得到了極大的提高
- Instant Aggregations,在 Shard 層面提供了 Aggregation 緩存
- 新增了 Profile API
V6.x
- Lucene 7.x
- Removal of types,在 6.0 里面,開始不支持一個 index 里面存在多個 type
- 跨多個Elasticsearch集群搜索,保留原來的索引在 5.x 群集,跨群集搜索來同時搜索 6.x 和 5.x 群集
- 跨群集復制(CCR)
- 更友好的的升級及數據遷移,在主要版本之間的遷移更為簡化,體驗升級
- 性能優化
- 稀疏區域改進,降低了存儲成本
- 通過索引排序,可加快排序的查詢性能
V7.x
- Lucene 8.0
- 重大改進-正式廢除單個索引下多 Type 的支持
- 7.1開始,Security 功能免費使用
- ECK,允許用戶在 Kubernetes 上配置,管理和操作 Elasticsearch 集群
- TransportClient 被廢棄
以至於,ES7 的 Java 代碼,只能使用 restclient - 新功能
- 新的集群協調
- 功能更完善的 REST Client
- Script Score Query,下一代的評分方式
- 性能優化
- 默認的 Primary Shard 數從 5 改為 1,避免 Over Sharding
- 性能優化,更快的 Top K 檢索
4、Elasticsearch 基本概念
要了解 Elasticsearch ,首先要先了解下面的幾個專有名詞,索引(Index)、文檔( Document)、類型(Type)
索引(Index)
- Index 一索引是文檔的容器,是一類文檔的結合
- Index 體現了邏輯空間的概念:每個索引都有自己的 Mapping,用於定義包含的文檔的字段名和字段類型
- Shard 體現了物理空間的概念:索引中的數據分散在 Shard 上
- 索引的 Mapping 與 Settings
- Mapping 定義文檔字段的類型
- Setting 定義不同的數據分布
定義不同的數據分布
{
"movies" : {
"settings" : {
"index" : {
"creation_date" : "1570452552",
"number_of_shards" : "5",
"number_of_replicas" : "1",
"uuid" : "pB0UsxjfQT2fW-s8Uy-Nsg",
"version" : {
"created" : "2030599"
}
}
}
}
}
定義文檔字段的類型
{
"movie": {
"mappings": {
"doc": {
"properties": {
"songName": {
"type": "text"
},
"singer": {
"type": "text"
},
"price": {
"type": "integer"
}
}
}
}
}
}
索引有不同語義,在 ES 中指的是在集群中創建的索引(名詞),也可以指的是文檔到 ES 的過程(動詞),即是一次倒排索引的過程。而在其他地方看到索引更多表示 B 樹索引或者倒排索引。
文檔( Document)
- Elasticsearch 是面向文檔的,文檔是所有可搜索數據的最小單位
- 日志文件中的日志項
- 一本電影的具體信息
- 一首歌的詳細信息
- 文檔會被序列化成 JSON 格式,保存在 Elasticsearch 中
- JSON 對象由字段組成,
- 每個字段都有對應的字段類型(字符串/數值/布爾/日期/二進制/范圍類型)
- 每個文檔都有一個 Unique ID
- 可以自己指定 ID 或者通過 Elasticsearch 自動生成
案例
{
"songName" : "說好不哭",
"singer" : "周傑倫",
"price" : 3
}
文檔的元數據
{
"_index" : "song",
"_type" : "_doc",
"_id" : "1",
"_version" : 1,
"found" : true,
"_source" : {
"songName" : "說好不哭",
"singer" : "周傑倫",
"price" : 3
}
}
- 元數據,用於標注文檔的相關信息
- _index :文檔所屬的索引名
- _type :文檔所屬的類型名
- _id :文檔唯一 Id
- _source:文檔的原始 JSON 數據
- _all:整合所有字段內容到該字段,已被廢除
- _version:文檔的版本信息
- _score:相關性打分
類型(Type)
- 在 7.0 之前,一個 Index 可以設置多個 Types
- 6.0 開始, Type 已經被 Deprecated。7.0 開始一個索引,只能創建一個 Type -"_doc"。
5、RDBMS VS Elasticsearch
下面是 RDBMS 和 Elasticsearch 一個不是很恰當類比,Elasticsearch 集群可以包含多個索引 Indes(數據庫),每一個索引可以包含一個doc類型 Type(表),每一個類型包含多個文檔 Document(記錄),然后每個文檔包含多個字段 Fields(列),DSL 相當於 RDBMS 的 SQL。
RDBMS | Elasticsearch |
---|---|
Schema | Mapping |
Table | Index(Type) |
Column | Filed |
Row | Document |
SQL | DSL |
6、小結
與傳統 SQL 數據庫管理系統(其花費10秒鍾以上的時間來獲取所需的搜索查詢數據)相比,Elasticsearch 可以在10毫秒內完成此操作。由於 Elasticsearch 具有分布式架構,因此它可以擴展到數千個服務器並容納PB級的數據。我們不必管理分布式設計的復雜性,因為 ES 已經自動完成。我們有多種方法可以為一些文檔建立索引或查詢它們,然而在使用 ES 下,我們可以輕松實現在海量數據快速檢索全文,得到我們想要的結果。