Elasticsearch之四種查詢類型和搜索原理


 Elasticsearch Client發送搜索請求,某個索引庫,一般默認是5個分片(shard)。

  它返回的時候,由各個分片匯總結果回來。

 

 

 

 

 

 

 

   官網API

https://www.elastic.co/guide/en/elasticsearch/client/java-api/2.4/index.html

 

 

 

 

 

 

es 在查詢時, 可以指定搜索類型為下面四種:
  QUERY_THEN_FETCH
  QUERY_AND_FEATCH
  DFS_QUERY_THEN_FEATCH
  DFS_QUERY_AND_FEATCH

那么這 4 種搜索類型有什么區別?

 

 

 

在講這四種搜索類型的區別之前, 先分析一下分布式搜索背景介紹:
  ES 天生就是為分布式而生, 但分布式有分布式的缺點。 比如要搜索某個單詞, 但是數據卻分別在 5 個分片(Shard)上面, 這 5 個分片可能在 5 台主機上面。 因為全文搜索天生就要排序( 按照匹配度進行排名) ,但數據卻在 5 個分片上, 如何得到最后正確的排序呢? ES是這樣做的, 大概分兩步:
  step1、 ES 客戶端將會同時向 5 個分片發起搜索請求。
  step2、 這 5 個分片基於本分片的內容獨立完成搜索, 然后將符合條件的結果全部返回。

客戶端將返回的結果進行重新排序和排名,最后返回給用戶。也就是說,ES的一次搜索,是一次scatter/gather過程(這個跟mapreduce也很類似)

 
 
 
 

  然而這其中有兩個問題:
  第一、 數量問題。 比如, 用戶需要搜索"衣服", 要求返回符合條件的前 10 條。 但在 5個分片中, 可能都存儲着衣服相關的數據。 所以 ES 會向這 5 個分片都發出查詢請求, 並且要求每個分片都返回符合條件的 10 條記錄。當ES得到返回的結果后,進行整體排序,然后取最符合條件的前10條返給用戶。 這種情況, ES 中 5 個 shard 最多會收到 10*5=50條記錄, 這樣返回給用戶的結果數量會多於用戶請求的數量。
  第二、 排名問題。 上面說的搜索, 每個分片計算符合條件的前 10 條數據都是基於自己分片的數據進行打分計算的。計算分值使用的詞頻和文檔頻率等信息都是基於自己分片的數據進行的, 而 ES 進行整體排名是基於每個分片計算后的分值進行排序的(相當於打分依據就不一樣, 最終對這些數據統一排名的時候就不准確了), 這就可能會導致排名不准確的問題。如果我們想更精確的控制排序, 應該先將計算排序和排名相關的信息( 詞頻和文檔頻率等打分依據) 從 5 個分片收集上來, 進行統一計算, 然后使用整體的詞頻和文檔頻率為每個分片中的數據進行打分, 這樣打分依據就一樣了。



 

Elasticsearch在搜索過程中存在以下幾個問題:

  (1)返回數據量問題

    如果數據分散在默認的5個分片上,ES會向5個分片同時發出請求,每個分片都返回10條數據,最終會返回總數據為:5 * 10 = 50條數據,遠遠大於用戶請求。

  (2)返回數據排名問題

    每個分片計算符合條件的前10條數據都是基於自己分片的數據進行打分計算的。計算分值(score)使用的詞頻和文檔頻率等信息都是基於自己分片的數據進行的,而ES進行整體排名是基於排名是基於每個分片計算后的分值進行排序的(打分依據就不一致,最終對這些數據統一排名的時候就不准確了)

 

 

 

=============================================================================
再舉個例子解釋一下【 排名問題】:
假設某學校有一班和二班兩個班級。
期末考試之后, 學校要給全校前十名學員發獎金。
但是一班和二班考試的時候使用的不是一套試卷。
一班: 使用的是 A 卷【 A 卷偏容易】
二班: 使用的是 B 卷【 B 卷偏難】
結果就是一班的最高分是 100 分, 最低分是 80 分。
二班的最高分是 70 分, 最低分是 30 分。

這樣全校前十名就都是一班的學員了。 這顯然是不合理的。
因為一班和二班的試卷難易程度不一樣, 也就是打分依據不一樣, 所以不能放在一塊排名。
【 這個就解釋了剛才的排名問題】
如果想要保證排名准確的話, 需要保證一班和二班使用的試卷內容一樣。
可以這樣做, 把 A 卷和 B 卷的內容組合到一塊, 作為 C 卷。
一班和二班考試都使用 C 卷, 這樣他們的打分依據就一樣了, 最終再根據所有學員的成績排

名求前十名就准確合理了。
=============================================================================

 

 這兩個問題, ES 也沒有什么較好的解決方法, 最終把選擇的權利交給用戶, 方法就是在搜索的時候指定 search type。

 

 

 

 

 

 

Elasticsearch在搜索問題的解決思路

  (1)返回數據數量問題

    第一步:先從每個分片匯總查詢的數據id,進行排名,取前10條數據

    第二步:根據這10條數據id,到不同分片獲取數據

  (2)返回數據排名問題

    將各個分片打分標准統一

 

 

 

 

 

 Elasticsearch的搜索類型(SearchType類型)

1、 query and fetch
  向索引的所有分片 ( shard)都發出查詢請求, 各分片返回的時候把元素文檔 ( document)和計算后的排名信息一起返回。
  這種搜索方式是最快的。 因為相比下面的幾種搜索方式, 這種查詢方法只需要去 shard查詢一次。 但是各個 shard 返回的結果的數量之和可能是用戶要求的 size 的 n 倍。
  優點:這種搜索方式是最快的。因為相比后面的幾種es的搜索方式,這種查詢方法只需要去shard查詢一次。
  缺點:返回的數據量不准確, 可能返回(N*分片數量)的數據並且數據排名也不准確,同時各個shard返回的結果的數量之和可能是用戶要求的size的n倍。
   

 

 

 

2、 query then fetch( es 默認的搜索方式)
  如果你搜索時, 沒有指定搜索方式, 就是使用的這種搜索方式。 這種搜索方式, 大概分兩個步驟:
  第一步, 先向所有的 shard 發出請求, 各分片只返回文檔 id(注意, 不包括文檔 document)和排名相關的信息(也就是文檔對應的分值), 然后按照各分片返回的文檔的分數進行重新排序和排名, 取前 size 個文檔。
  第二步, 根據文檔 id 去相關的 shard 取 document。 這種方式返回的 document 數量與用戶要求的大小是相等的。
  優點:
    返回的數據量是准確的。
  缺點:
    性能一般,並且數據排名不准確。

 

 

3、 DFS query and fetch
  這種方式比第一種方式多了一個 DFS 步驟,有這一步,可以更精確控制搜索打分和排名。也就是在進行查詢之前, 先對所有分片發送請求, 把所有分片中的詞頻和文檔頻率等打分依據全部匯總到一塊, 再執行后面的操作、
  優點:
    數據排名准確
  缺點:
    性能一般
    返回的數據量不准確, 可能返回(N*分片數量)的數據

 

 

 

4、 DFS query then fetch
  比第 2 種方式多了一個 DFS 步驟。
  也就是在進行查詢之前, 先對所有分片發送請求, 把所有分片中的詞頻和文檔頻率等打分依據全部匯總到一塊, 再執行后面的操作、

  優點:
    返回的數據量是准確的
    數據排名准確
  缺點:
    性能最差【 這個最差只是表示在這四種查詢方式中性能最慢, 也不至於不能忍受,如果對查詢性能要求不是非常高, 而對查詢准確度要求比較高的時候可以考慮這個】

 

 

  DFS 是一個什么樣的過程?
  從 es 的官方網站我們可以發現, DFS 其實就是在進行真正的查詢之前, 先把各個分片的詞頻率和文檔頻率收集一下, 然后進行詞搜索的時候, 各分片依據全局的詞頻率和文檔頻率進行搜索和排名。 顯然如果使用 DFS_QUERY_THEN_FETCH 這種查詢方式, 效率是最低的,因為一個搜索, 可能要請求 3 次分片。 但, 使用 DFS 方法, 搜索精度是最高的。

  總結一下, 從性能考慮 QUERY_AND_FETCH 是最快的, DFS_QUERY_THEN_FETCH 是最慢的。從搜索的准確度來說, DFS 要比非 DFS 的准確度更高。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM