from:https://www.zhihu.com/question/24675366?sort=created 中文:主要是從拼音角度,比如輸入“雷縫”(雷鋒),使用編輯距離會改變要查詢的語義,所以我們從同音詞入手,使用噪聲信道模型,先確定出一些常見的相關詞,再確定概率 ...
搜索引擎是目前人們獲取信息最重要的方式之一,其最基本最核心的功能是信息檢索,找到含有關鍵字的網頁或文檔,然后按照一定排序將結果給出,在此基礎之上,能夠提供更多更復雜的功能來提升用戶體驗。對於一個成熟的搜索系統,用戶看似簡單的搜索過程,需要在系統中經過多個環節,多個模塊協同工作,才能提供一個讓人滿意的搜索結果。在搜索引擎輸入的查詢中,有相當一部分是帶輸入錯誤的查詢。而提交有錯誤的查詢給搜索引擎,通 ...
2018-11-10 21:37 0 1127 推薦指數:
from:https://www.zhihu.com/question/24675366?sort=created 中文:主要是從拼音角度,比如輸入“雷縫”(雷鋒),使用編輯距離會改變要查詢的語義,所以我們從同音詞入手,使用噪聲信道模型,先確定出一些常見的相關詞,再確定概率 ...
這些天在為以后工作做一些知識儲備,所以想從總體上大致了解下搜索引擎的知識框架同時對較為重要的部分有個較為深入的了解。記得在微博上看到有人推薦張俊林同學的這本書,豆瓣上總體評價也不錯就買來看了。這篇博客是對一個多月看此書的總結,第二部分用自己的話總結了搜索引擎的知識主線,其中結合了看書的筆記 ...
查詢擴展 查詢擴展的動機:提高召回率 問題:考慮查詢q: [aircraft],某篇文檔d包含“plane”, 但是不包含“aircraft”,顯然對於查詢q,一個簡單的IR系統不會返回文檔d,即使d是和q最相關的文檔。我們試圖改變這種做法:也就是說,我們會返回不包含查詢詞項的相關文檔 ...
分詞是搜索中最基本也是非常重要的一個功能,正確的分詞是好的搜索效果的必要條件。 1. 分詞粒度 分詞中,最主要的問題是分詞粒度問題。例如“射雕英雄傳”,下面的幾種分詞方式,哪一種最正確? 最細粒度分詞:【射雕,英雄,傳】 正常粒度分詞:【射雕,英雄傳】 最粗粒度分詞 ...
在mysql中輸入下面的命令 查詢命令: 查詢結果: 指定搜索引擎: 修改搜索引擎: 查看表的搜索引擎: ...
lucene 和 es 的前世今生 lucene 是最先進、功能最強大的搜索庫。如果直接基於 lucene 開發,非常復雜,即便寫一些簡單的功能,也要寫大量的 Java 代碼,需要深入理解原理。 elasticsearch 基於 lucene,隱藏了 lucene 的復雜性,提供了簡單易用 ...
面試題 es 寫入數據的工作原理是什么啊?es 查詢數據的工作原理是什么啊?底層的 lucene 介紹一下唄?倒排索引了解嗎? 面試官心理分析 問這個,其實面試官就是要看看你了解不了解 es 的一些基本原理,因為用 es 無非就是寫入數據,搜索數據。你要是不明白你發起一個寫入和搜索請求 ...
### site:52pojie.cn ...