solr6.6 索引 word文檔


  本文是solr6.6 導入 pdf/doc/txt/json/csv/xml文件 的繼續,上篇在索引文件,唯獨07格式的word文檔不能正常抽取數據,進過研究測試終於,記錄下屬過程。

  其它步驟基本和solr6.6 導入 pdf/doc/txt/json/csv/xml文件一樣,不同的地方如下:

  1、配置solrconfig.xml不同,改為如下:

    增加兩個引用

<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />
  <lib dir="./lib" regex=".*\.jar"/>

 

   

 

    因為在導入過程中用到了下面兩個jar包

    

    因為在text字段中涉及到中文分詞,要用到下面兩個jar包,所以單獨放在test下面lib(該文件夾下只有兩個文件,和上次的不同)文件夾下面

    

    data-config.xml文件內容:

    

    導入文件:

    

    導入結果:

    

    同樣,xls/xlsx/ppt/pptx類型的文件索引方式和word一樣

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM