solr學習篇(二) solr 分詞器篇


  關於solr7.4搭建與配置可以參考 solr7.4 安裝配置篇  在這里我們探討一下分詞的配置

目錄

  關於分詞

  配置分詞

  驗證成功

1.關於分詞

  1.分詞是指將一個中文詞語拆成若干個詞,提供搜索引擎進行查找,比如說:北京大學 是一個詞那么進行拆分可以得到:北京與大學,甚至北京大學整個詞也是一個語義

  2.市面上常見的分詞工具有 IKAnalyzer MMSeg4j  Paoding等,這幾個分詞器各有優劣,大家可以自行研究

  在這篇文章,我先演示IKAnalyzer分詞器 下載:IKAnalyzer

2.拷貝相關Jar包與配置

  下載解壓后 把這兩個jar文件復制到solr-7.4.0\server\solr-webapp\webapp\WEB-INF\lib中

 

  然后在solr-7.4.0\server\solr-webapp\webapp\WEB-INF\目錄下新建一個classes目錄,把下面三個文件復制進去

進入之前創建的core   在solr-7.4.0\server\solr\newCore\conf下打開managed-schema.xml 添加如下代碼:

 <fieldType name="text_ik" class="solr.TextField">  
        <analyzer type="index" useSmart="false"
            class="org.wltea.analyzer.lucene.IKAnalyzer" />
        <analyzer type="query" useSmart="true"
            class="org.wltea.analyzer.lucene.IKAnalyzer" />
</fieldType> 

在這里我們發現並沒有schema.xml。這是因為Solr版本中(Solr5之前),在創建core的時候,Solr會自動創建好schema.xml,但是在之后的版本中,新加入了動態更新schema功能,這個默認的schema.xml確找不到了,在Solr5以后,這個schema文件已經不是默認生成好的了,它被取了一個名字managed-schema,並且沒有后綴。乍一看,以為是打不開的文件,當然沒有什么能難倒程序員的,用Sublime Text 3打開,發現了熟悉的文字,這不就是之前的schema.xml文件嗎。

  3.驗證成功

    打開服務,打開你所創建的core

   選擇Analysis  輸入要搜索的中文 選擇FieldType為text_ik  可以發現分詞成功

  注意filedType一定選擇我們配置的分詞類型text_ik

 

----------------------------------------------------------------分割線----------------------------------------------------

有朋友私信說配置好了並沒有ik

這是因為本文中我用的 上一篇中的第一種方式創建的code,這種方式連接數據庫不是特別好,應該使用第二種命令創建。

但是命令創建后的conf目錄是需要去 solr{home}\example\example-DIH\solr\db下的文件進行復制。 詳情請參考下一篇。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM