利用 lucene.net 實現高效率的 WildcardQuery ，記一次類似百度搜索下拉關鍵字聯想功能的實現。

本文轉載自查看原文 2016-12-19 13:14 1401 記錄小經驗

打開百度輸入

該項目最終在在我項目的搜索結果

站內搜索也要實現類似功能。最基礎的做法，寫個方法查數據庫搜索歷史綜合表keywordSearch（先將被搜索過的關鍵字記錄到一張表，記錄好他們被搜索的次數、上次搜索的有多少結果）

大概一條sql語句：select keyword,searchCount,xxxx from table where keyword like '會計%'

當表 keywordSearch 記錄很有幾百上千萬的時候，like顯然不能及時響應了。但是這種關鍵字聯想的一旦有延遲返回，那是很不好的體驗。還沒等你返回一次聯想結果，用戶早就自己輸完了。。。。。那還聯想個球。

然后這個時候，想到的是用lucene.net

二話不說開干。很快實現了demo，創建了索引2g，搜索核心代碼如下：(渣渣代碼，勿噴)

測試之，大概在1秒內能返回結果，但是還是不夠快，有明顯的延遲感。

尼瑪。。。。。想不到好辦法解決，然后試了試用RAMDirectory ，還是不行，畢竟 RAMDirectory 只是將索引一次性讀到內存，避免了一個預熱的過程，所以瓶頸感覺應該出在了這個WildcardQuery上(誰知道lucene.net要實現這種查詢，還有其他辦法效率高嗎？看到的有知道的請評論告訴我謝謝。)。

當時想的是，看樣子只能丟掉一些關鍵字，比如只匯總最近一年的關鍵字，把索引搞小一些。

but，周末休息了一下，讓我想到了一個辦法。

既然要減少單個索引體積，那我為什么不拆分索引？

首先，創建索引的時候，根據關鍵字的第一個漢字的首字母，來決定放在哪個索引。比如 “會計學” 放在 D:\LuceneIndex\Searchkeyword\k\ 目錄下的索引，"管理學"放在 D:\LuceneIndex\Searchkeyword\g\ 目錄。

然后檢索的時候我也根據用戶輸入的關鍵字，檢索不同的目錄。這樣應該就能解決這個問題。

說干就干，又開始改代碼。

因為代碼篇幅比較大，我就貼一點核心部分。(再次請求原諒我的渣渣代碼。。。。)