Lucene.Net入門教程示例

本文轉載自查看原文 2012-02-16 15:42 3370 lucene

本人看到這篇非常不錯的Lucene.Net入門基礎教程，就轉載分享一下給大家來學習，
希望大家在工作實踐中可以用到。

一.簡單的例子

//索引
Private void Index()
{
    IndexWriter writer = new IndexWriter(@"E:\Index", new StandardAnalyzer());
    Document doc = new Document();
    doc.Add(new Field("Text","哦耶,美麗的姑娘。", Field.Store.YES, Field.Index.TOKENIZED));
    writer.AddDocument(doc);
    writer.Close();
}

//搜索
Private void Search(string words)
{
    IndexSearcher searcher = new IndexSearcher(@"E:\Index");
    Query query = new QueryParser(“Text”, new StandardAnalyzer()).Parse(words);
    Hits hits = searcher.Search(query);
    for (int i = 0; i < hits.Length(); i )
        System.Console.WriteLine(hits.Doc(i).GetField("Text").StringValue();
    searcher.Close();
}

二．初識Lucene
1. Lucene是什么
Lucene是一個高性能的、可擴展的信息檢索工具包。它只是Java類庫，並不是現成的應用程序。它提供簡單易用卻十分強大的API接口，基於它你可以快速的構建功能強大的搜索程序（搜索引擎？）。當前最新版2.9.2.1。

2. 什么是索引
為了實現快速的搜索，Lucene會首先將需要處理的數據以一種稱為倒排索引（Inverted Index）的數據結構進行存儲。怎樣理解倒排索引呢？簡單的說，倒排索引並不是回答“這個文檔中包含哪些單詞？”這個問題，而是經過優化以后用來快速回答“哪些文檔包含詞XX？”這個問題。就像需要給書籍整理一份供快速查找的目錄一樣，Lucene也得為需要被搜索的數據整理優化出一份索引文件(Index file)，而這個過程稱之為“索引”(Indexing)。

3. Lucene的核心類
索引過程：
IndexWriter Directory Analyzer Document Field
搜索過程：
IndexSearcher Term Query TermQuery Hits

三.索引
1. 索引過程的流程圖:

注:Lucene索引過程分為三個主要的操作階段：將數據換轉成文本、分析文本、並將分析過的文本保存到索引庫中

2. 基本的索引操作
2.1添加索引
Document
Field（理解Field的參數）
異構Document
追加域
增量索引
2.2刪除索引
軟刪除，僅添加了刪除標記。調用 IndexWriter.Optimize() 后真正刪除。

IndexReader reader = IndexReader.Open(directory);

// 刪除指定序號(DocId)的 Document。
reader.Delete(123);

// 刪除包含指定 Term 的 Document。
reader.Delete(new Term(FieldValue, "Hello"));

// 恢復軟刪除。
reader.UndeleteAll();

reader.Close();

2.3更新索引
事實上，Lucene沒有更新索引的方法
更新 = 刪除 + 添加
提示：當刪除和添加多個Document對象時，最好進行批量處理。這樣做的速度總是比交替的刪除和添加操作的速度快得多。

//只需將 create 參數設為 false，即可往現有索引庫添加新數據。
Directory directory = FSDirectory.GetDirectory("index", false);
IndexWriter writer = new IndexWriter(directory, analyzer, false);
writer.AddDocument(doc1);
writer.AddDocument(doc2);
writer.Optimize();
writer.Close();

3. 加權(boosing)
可以給 Document 和 Field 增加權重(Boost)，使其在搜索結果排名更加靠前。缺省情況下，搜索結果以 Document.Score 作為排序依據，該數值越大排名越靠前。Boost 缺省值為 1。
Score = Score * Boost
通過上面的公式，我們就可以設置不同的權重來影響排名。
如下面的例子中根據 VIP 級別設定不同的權重。

Lucene.Net入門教程示例

免責聲明！