標簽【92-搜索引擎_lucene】

環境搭建一.zookeeper 參考：http://blog.chinaunix.net/uid-25135004-id-4214399.html 現有4台機器 10.14.2.201 ...

面對字段類型為數值時，lucene表現得並不是很完美，經常會帶來一些意想不到的“問題”。下面從索引、排序、范圍檢索（rangeQuery）三個方面進行分析。搜索我們做好准備工作，建立索引。 ...

spellChecker是用來對用戶輸入的“檢索內容”進行校正，例如百度上搜索“麻辣將”，他的提示如下圖所示：我們首先借用lucene簡單實現該功能。本文內容如下（簡單實現、原理簡介、現 ...

對於lucene的統計，我基本放棄使用factedSearch了，效率不高，而且兩套索引總覺得有點臃腫！這次我們通過改造Collector，實現簡單的統計功能。經過測試，對幾十萬的統計還是比較快的 ...

lucene中的nrt

NRT原理 When you ask for the IndexReader from the IndexWriter, the IndexWriter will be flushed (docs ...

一）分詞 1）正向/逆向最大匹配算法典型：IKAnalyzer采用的是正向迭代最細粒度切分算法 IKAnalyzer源碼簡單分析： http://www.cnblogs.com/huangf ...

先撇開其他的不談，我們先看看下面幾段代碼，他們均能實現“實時”檢索。注意： 1.筆者目前采用的lucene版本為3.5. 2.為了檢查是否“實時”，采用了numDocs是否發生變化進行簡易判斷 ...

在某些場景需要做自定義排序（非單值字段排序、非文本相關度排序），除了自己重寫collect、weight，可以借助CustomScoreQuery。場景：根據tag字段中標簽的數量進行排序（tag ...