http://tech.meituan.com/pinyin-suggest.html --------------------------------------------------------------------- 快照: 問題背景 搜索關鍵字智能提示是一個搜索應用的標配,主要 ...
搜索引擎可以說目前所有互聯網應用里技術含量最高的一種。盡管應用形式比較簡單:用戶輸入查詢詞,搜索引擎返回搜索結果。但是,搜索引擎需要達到的目標:更全 更快 更准。如何讓搜索結果更准確始終是搜索引擎的一大難題。 公司最近在開發某行業的垂直搜索引擎,我作為該項目組的核心成員主要是負責核心算法的研究工作。我也是剛開始接觸這個行業,目前還處於摸索階段,還有很長的路要走。 言歸正傳,先談一下這個項目的背景 ...
2015-11-23 17:17 1 2313 推薦指數:
http://tech.meituan.com/pinyin-suggest.html --------------------------------------------------------------------- 快照: 問題背景 搜索關鍵字智能提示是一個搜索應用的標配,主要 ...
Trie字典樹 Trie字典樹又稱前綴樹,顧名思義,是查詢前綴匹配的一種樹形數據結構 可以分為插入(創建) 和 查詢兩部分。參考地址極客時間 下圖為插入字符串的過程: 創建完成后,每個字符串最后一個字母標記為終結點(圖中顯示為紅色) 下圖為查詢字符串:“her”的過程:綠色箭頭表示查詢 ...
聲明:本文首發在博客園晨星落羽,Shulin_Cao和lvmememe首頁,轉載請注明出處。 前言 2016.5到2017.5,我們三人(lvmememe,Shulin_Cao,晨星落羽)共同完成了一個本科生科研項目——簡體中文版兒童搜索引擎。在做的過程中我們發現,搜索引擎的框架 ...
...
有時候我們需要知道用戶通過哪個搜索引擎,通過拿個關鍵詞訪問我們頁面,當然js也可以實現,這里介紹下php的實現代碼,包含(百度、谷歌、雅虎、搜狗、搜搜、必應、有道)幾大搜索引擎的獲取方法。 由於各搜索引擎的頁面編碼不一樣,有的是GBK,有的是UTF8,所以在獲取時會有不同對 ...
用戶在使用搜索引擎過程中,由於表述不清晰或者查詢詞與索引庫描述不一致,為了能召回更多更優質的結果展示給用戶。這時就需要對用戶查詢進行分析,包括詞權、同義詞、糾錯等技術,對原查詢進行處理。通常搜索引擎中對同義詞的處理,線下挖掘同義詞詞典,線上加載詞典,但由於檢索系統應用同義詞時詞典存在部分質量 ...
最近一直在研究sphinx的工作機制,在[搜索引擎]Sphinx的介紹和原理探索簡單地介紹了其工作原理之后,還有很多問題沒有弄懂,比如底層的數據結構和算法,於是更進一步地從數據結構層面了解其工作原理。在網上搜了很多資料,發現沒有很多介紹這方面的文章,后來找到了一本書,《這就是搜索引擎》,拜讀了本書 ...
lucene 和 es 的前世今生 lucene 是最先進、功能最強大的搜索庫。如果直接基於 lucene 開發,非常復雜,即便寫一些簡單的功能,也要寫大量的 Java 代碼,需要深入理解原理。 elasticsearch 基於 lucene,隱藏了 lucene 的復雜性,提供了簡單易用 ...