【漫畫】ES原理必知必會的倒排索引和分詞

本文轉載自查看原文 2020-05-23 12:05 1031

es1

倒排索引的初衷

es2_1

倒排索引，它也是索引。索引，初衷都是為了快速檢索到你要的數據。

我相信你一定知道mysql的索引，如果對某一個字段加了索引，一般來說查詢該字段速度是可以有顯著的提升。
每種數據庫都有自己要解決的問題（或者說擅長的領域），對應的就有自己的數據結構，而不同的使用場景和數據結構，需要用不同的索引，才能起到最大化加快查詢的目的。
對 Mysql 來說，是 B+ 樹，對 Elasticsearch/Lucene 來說，是倒排索引。

es2_2

倒排索引是什么

剛剛胖滾豬說到圖書的例子，目錄和索引頁，其實就很形象的可以比喻為正排索引和倒排索引。為了進一步加深理解，再看看熟悉的搜索引擎。沒有搜索引擎時，我們只能直接輸入一個網址，然后獲取網站內容，這時我們的行為是document -> words。此謂「正向索引」。后來，我們希望能夠輸入一個單詞，找到含有這個單詞，或者和這個單詞有關系的文章，即word -> documents。於是我們把這種索引，叫「反向索引」，或者「倒排索引」。
好了，我們來總結一下：

es3

倒排索引的實現

假如一篇文章當中，有這么一段話"胖滾豬編程讓你收獲快樂"，我要通過"胖滾豬"這個詞來搜索到這篇文章，那么應該如何實現呢。

我們是很容易想到，可以將這篇文章的詞都拆開，拆分為"胖滾豬"、"編程"、"收獲"、"快樂"。注意我們把沒用的詞，比如"讓"去掉了。這個拆分短語的過程涉及到ES的分詞，另外中文分詞還是比較復雜的，不像英文分詞一般用空格分隔就可以。等會我們再來說分詞吧，現在你只要知道，我們是會按一定規則把文章單詞拆分的。
那么拆開了，怎么去找呢？自然會維護一個單詞和文檔的對應關系，如圖：

es4

倒排索引的核心組成

1、單詞詞典：記錄所有文檔的單詞，一般都比較大。還會記錄單詞到倒排列表的關聯信息。
2、倒排列表：記錄了單詞對應的文檔集合，由倒排索引項組成。倒排索引項包含如下信息：

文檔ID，用於獲取原始信息
單詞頻率TF，記錄該單詞在該文檔中的出現次數，用於后續相關性算分
位置Position，記錄單詞在文檔中分詞的位置，用於語句搜索(phrase query)
偏移Offset，記錄單詞在文檔的開始和結束位置，實現高亮顯示

es6

ES的倒排索引

下圖是 Elasticsearch 中數據索引過程的流程。ES由 Analyzer 組件對文檔執行一些操作並將具體子句拆分為 token/term，簡單說就是分詞，然后將這些術語作為倒排索引存儲在磁盤中。

ES的JSON文檔中的每一個字段，都有自己的倒排索引，當然你可以指定某些字段不做索引，優點是這樣可以節省磁盤空間。但是不做索引的話字段無法被搜索到。
注意兩個關鍵詞：分詞和倒排索引。倒排索引我相信你已經懂了！分詞我們馬上就來聊聊！

ES的分詞

還是回到我們開頭的那個查詢例子，畢竟胖滾豬心心念念為什么會搜出兩個文檔！首先我們用_analyze來分析一下ES會如何對它進行分詞及倒排索引：

現在你是不是一目了然了呢！先不管_analyze是何方神聖，反正你看到結果了，ES將它分成了一個個字，這是ES中默認的中文分詞。掌握分詞要先懂兩個名詞：analysis與analyzer

** analysis：**

文本分析，是將全文本轉換為一系列單詞的過程，也叫分詞。analysis是通過analyzer(分詞器)來實現的，可以使用Elasticearch內置的分詞器，也可以自己去定制一些分詞器。

** analyzer(分詞器)： **

由三部分組成：

Character Filter：將文本中html標簽剔除掉。
Tokenizer：按照規則進行分詞，在英文中按照空格分詞
Token Filter：將切分的單詞進行加工，小寫，刪除 stopwords(停頓詞，a、an、the、is等),增加同義詞

注意：除了在數據寫入時將詞條進行轉換，查詢的時候也需要使用相同的分析器對語句進行分析。即我們寫入蘋果的時候分詞成了蘋和果，查詢蘋果的時候同樣也是分詞成蘋和果去查。
es7

ES內置分詞器

Standard Analyzer - 默認分詞器，按詞切分，小寫處理
Simple Analyzer - 按照非字母切分(符號被過濾), 小寫處理
Stop Analyzer - 小寫處理，停用詞過濾(the,a,is)
Whitespace Analyzer - 按照空格切分，不轉小寫
Keyword Analyzer - 不分詞，直接將輸入當作輸出
Patter Analyzer - 正則表達式，默認\W+(非字符分割)
Language - 提供了30多種常見語言的分詞器
Customer Analyzer 自定義分詞器

看概念太虛了！一定要動手實操才有用！我們可以用_analyze進行分析，會輸出分詞后的結果，舉兩個例子吧！其他的你也要自己課后動手試試哦！

#默認分詞器 按詞切分 小寫處理
GET _analyze
{
  "analyzer": "standard",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

#可以發現停用詞被去掉了
GET _analyze
{
  "analyzer": "stop",
  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."
}

中文擴展分詞器

現在來解決胖滾豬的問題，蘋果明明一個詞，不想讓它分為兩個呀！中文分詞在所有搜索引擎中都是一個很大的難點，中文的句子應該是切分成一個個的詞，但是一句中文，在不同的上下文，其實是不同的理解，例如: 這個蘋果，不大好吃/這個蘋果，不大，好吃。

有一些比較不錯的中文分詞插件:IK、THULAC等。我們可以試試用IK進行中文分詞。

#安裝插件
https://github.com/medcl/elasticsearch-analysis-ik/releases
在plugins目錄下創建analysis-ik目錄 解壓zip包到當前目錄 重啟ES
#查看插件
bin/elasticsearch-plugin list
#查看安裝的插件
GET http://localhost:9200/_cat/plugins?v

** IK分詞器：支持自定義詞庫、支持熱更新分詞字典 **

ik_max_word: 會將文本做最細粒度的拆分，比如會將“這個蘋果不大好吃”拆分為"這個，蘋果，不大好，不大，好吃"等，會窮盡各種可能的組合；
ik_smart: 會做最粗粒度的拆分，比如會將“這個蘋果不大好吃”拆分為"這個，蘋果，不大，好吃"

curl -X GET "localhost:9200/_analyze?pretty" -H 'Content-Type: application/json' -d'
{
  "analyzer" : "ik_max_word",
  "text" : "這個蘋果不大好吃"
}
'

es8

** 如何使用分詞器 **

列舉了很多的分詞器，那么在實際中該如何使用呢？看看下面這個代碼演示就懂啦！

# 創建索引時候指定某個字段的分詞器
PUT iktest
{
  "mappings": {
    "properties": {
      "content": {
        "type": "text",
        "analyzer": "ik_smart"
      }
    }
  }
}
# 插入一條文檔
PUT iktest/_doc/1
{
  "content":"這個蘋果不大好吃"
}
# 測試分詞效果
GET /iktest/_analyze
{
  "field": "content",
  "text": "這個蘋果不大好吃"  
}

注：本文來源於公眾號[胖滾豬學編程]，其中卡通形象來源於微信表情包"胖滾家族"，且已獲作者的許可。

wchat1

本文來源於公眾號【胖滾豬學編程】一個集顏值與才華於一身的女程序媛。以漫畫形式讓編程so easy and interesting。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 ES原理之倒排索引 ES的倒排索引原理 ES倒排索引原理 es倒排索引原理解析 ES的底層原理-倒排索引的概念 Elasticsearch系列---倒排索引原理與分詞器倒排索引原理和實現 elasticsearch 倒排索引原理倒排索引原理和實現倒排索引原理和實現

【漫畫】ES原理 必知必會的倒排索引和分詞