jieba.NET與Lucene.Net的集成

本文轉載自查看原文 2015-09-16 21:51 3452 中文分詞/ Lucene.Net/ jieba.NET/ 30-自然語言處理

首先聲明：我對Lucene.Net並不熟悉，但搜索確實是分詞的一個重要應用，所以這里還是嘗試將兩者集成起來，也許對你有一參考。

看到了兩個中文分詞與Lucene.Net的集成項目：Lucene.Net.Analysis.PanGu和Lucene.Net.Analysis.MMSeg，參考其中的代碼實現了最簡單的集成：jiebaForLuceneNet。下面給出簡單的介紹。

1、JiebaTokenizer

主要的集成點是自定義一個Tokenizer的子類，此時必須要實現它的抽象方法IncrementToken，該方法用於對文本流中的文本生成的token進行遍歷，這正是分詞組件發揮作用的地方。

public override bool IncrementToken()
{
    ClearAttributes();
    position++;
    if (position < tokens.Count)
    {
        var token = tokens[position];
        termAtt.SetTermBuffer(token.Word);
        offsetAtt.SetOffset(token.StartIndex, token.EndIndex);
        typeAtt.Type = "Jieba";
        return true;
    }

    End();
    return false;
}

termAtt和offsetAtt所在的兩行代碼需要用到每一個token的詞本身、起始索引和終止索引，而這三個值恰好是JiebaSegmenter.Tokenize方法所實現的，所以只要在初始化JiebaTokenizer時使用：

tokens = segmenter.Tokenize(text, TokenizerMode.Search).ToList();

就可以得到所有分詞所得的token，另外TokenizerMode.Search參數使得Tokenize方法的結果中包含更全面的分詞結果，比如“語言學家”會得到四個token，即“[語言, (0, 2)], [學家, (2, 4)], [語言學, (0, 3)], [語言學家, (0, 4)]”，這在創建索引和搜索時都很有幫助。

2、JiebaAnalyzer

Tokenizer類實現分詞，而添加索引和搜索需要的是Analyzer，JiebaAnalyzer只要調用JiebaTokenizer即可。

public override TokenStream TokenStream(string fieldName, TextReader reader)
{
    var seg = new JiebaSegmenter();
    TokenStream result = new JiebaTokenizer(seg, reader);
    // This filter is necessary, because the parser converts the queries to lower case.
    result = new LowerCaseFilter(result);
    result = new StopFilter(true, result, StopWords);
    return result;
}

除了JiebaTokenizer，JiebaAnalyzer還會用到LowerCaseFilter和StopFilter。前者可將索引和搜索的內容正則化，忽略大小寫，后者則過濾掉停用詞。這里使用的停用詞列表合並了NLTK的英文停用詞和哈工大的中文停用詞。

3、創建索引和搜索

創建索引時，IndexWriter要使用JiebaAnalyzer的實例：

var analyzer = new JiebaAnalyzer();

using (var writer = new IndexWriter(Directory, analyzer, IndexWriter.MaxFieldLength.UNLIMITED))
{
    // replaces older entry if any
    foreach (var sd in data)
    {
        AddToLuceneIndex(sd, writer);
    }

    analyzer.Close();
}

搜索的時候，先將用戶的輸入分詞：

private static string GetKeyWordsSplitBySpace(string keywords, JiebaTokenizer tokenizer)
{
    var result = new StringBuilder();

    var words = tokenizer.Tokenize(keywords);

    foreach (var word in words)
    {
        if (string.IsNullOrWhiteSpace(word.Word))
        {
            continue;
        }

        result.AppendFormat("{0} ", word.Word);
    }

    return result.ToString().Trim();
}

比如如果用戶輸入的是“語言學家”，那么該函數的返回值是“語言學家語言學語言學家”，為后面的搜索做好准備（另外，我們還可以為每個詞加上一個*，這樣只要部分匹配就可以搜到結果）。最后的搜索實現是：

private static IEnumerable<News> SearchQuery(string searchQuery, string searchField = "")
{
    if (string.IsNullOrEmpty(searchQuery.Replace("*", "").Replace("?", "")))
    {
        return new List<News>();
    }

    using (var searcher = new IndexSearcher(Directory, false))
    {
        var hitsLimit = 1000;
        //var analyzer = new StandardAnalyzer(Version.LUCENE_30);
        var analyzer = GetAnalyzer();

        if (!string.IsNullOrEmpty(searchField))
        {
            var parser = new QueryParser(Version.LUCENE_30, searchField, analyzer);
            var query = ParseQuery(searchQuery, parser);
            var hits = searcher.Search(query, hitsLimit).ScoreDocs;
            var results = MapLuceneToDataList(hits, searcher);

            analyzer.Dispose();
            return results;
        }
        else
        {
            var parser = new MultiFieldQueryParser(Version.LUCENE_30, new[] { "Id", "Title", "Content" }, analyzer);
            var query = ParseQuery(searchQuery, parser);
            var hits = searcher.Search(query, null, hitsLimit, Sort.RELEVANCE).ScoreDocs;
            var results = MapLuceneToDataList(hits, searcher);

            analyzer.Close();
            return results;
        }
    }
}

這里的searchField參數可以指定特定字段進行搜索，如果為空，則對所有字段進行搜索。至此實現了最基本的集成。

JiebaTokenizer、JiebaAnalyzer的實現和示例代碼都可在jiebaForLuceneNet找到。

4、Luke.Net

Luke.Net可以查看Lucene.Net生成的索引內容，這在開發和調試Lucene的時候會特別有幫助。

參考：

Lucene.Net ultra fast search for MVC or WebForms site

Lucene.Net – Custom Synonym Analyzer

https://github.com/JimLiu/Lucene.Net.Analysis.PanGu

http://pangusegment.codeplex.com/wikipage?title=PanGu4Lucene

http://luke.codeplex.com/releases/view/82033

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【netcore基礎】.Net core通過 Lucene.Net 和 jieba.NET 處理分詞搜索功能 Lucene.Net + 盤古分詞 jieba中文分詞的.NET版本：jieba.NET Lucene.Net使用探秘 Lucene.net(4.8.0) 學習問題記錄五: JIEba分詞和Lucene的結合，以及對分詞器的思考 .NET Core中文分詞組件jieba.NET Core lucene.NET詳細使用與優化詳解 Lucene.Net 入門---介紹篇 Lucene.net入門學習系列(1) Lucene.Net入門教程示例