本文是solr6.6 導入 pdf/doc/txt/json/csv/xml文件 的繼續,上篇在索引文件,唯獨07格式的word文檔不能正常抽取數據,進過研究測試終於,記錄下屬過程。
其它步驟基本和solr6.6 導入 pdf/doc/txt/json/csv/xml文件一樣,不同的地方如下:
1、配置solrconfig.xml不同,改為如下:
增加兩個引用
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" /> <lib dir="./lib" regex=".*\.jar"/>

因為在導入過程中用到了下面兩個jar包

因為在text字段中涉及到中文分詞,要用到下面兩個jar包,所以單獨放在test下面lib(該文件夾下只有兩個文件,和上次的不同)文件夾下面

data-config.xml文件內容:

導入文件:

導入結果:

同樣,xls/xlsx/ppt/pptx類型的文件索引方式和word一樣
