solr6.6 導入文本（txt/json/xml/csv）文件

本文轉載自查看原文 2017-11-28 15:55 1622 solr6.6 導入文本文件/ 搜索引擎Solr系列

　　重點就是三個配置文件

　　1、建立的data-config.xml

　　　　內容如下：

<dataConfig>
  <dataSource name="fileDataSource" type="FileDataSource" />
    
    <!--<document>  
        <entity name="tika-test" processor="TikaEntityProcessor"  
                url="C:/docs/solr-word.pdf" format="text">  
                <field column="Author" name="author" meta="true"/>  
                <field column="title" name="title" meta="true"/>  
                <field column="text" name="text"/>  
        </entity>  
    </document>-->  
    
  <dataSource name="urlDataSource" type="BinURLDataSource" />
  <!--baseDir="D:/work/Solr/solr-6.6.0/ImportDoc" fileName=".*\.(doc)|(pdf)|(docx)|(txt)"-->
  <document>
    <entity name="files" dataSource="null" rootEntity="false"
    processor="FileListEntityProcessor"
    baseDir="D:/work/Solr/solr-6.6.0/ImportDoc" fileName=".*\.(json)|(txt)|(csv)|(xml)"
    onError="skip"
    recursive="true">
      <field column="file" name="id"/>
      
      <field column="fileAbsolutePath" name="filePath" />
      <field column="fileSize" name="size" />
      <field column="fileLastModified" name="lastModified" />

      <entity processor="PlainTextEntityProcessor" name="txtfile" url="${files.fileAbsolutePath}" dataSource="fileDataSource">
        <field column="plainText" name="text"/>
      </entity>
    </entity>
  </document>
</dataConfig>

　2、修改managed-schema文件

　　　　增加如下內容：

 <!-- mmseg4j fieldType-->
  <fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100" >
    <analyzer>
      <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" />
    </analyzer>
  </fieldType>
  <fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100" >
    <analyzer>
      <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
    </analyzer>
  </fieldType>
  <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" >
    <analyzer>
      <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" />
    </analyzer>
  </fieldType>


  <field name="text" type="text_mmseg4j_complex" indexed="true" stored="true" omitNorms="true" multiValued="false"/>
  <field name="fileName" type="string" indexed="true" stored="true" />
  <field name="filePath" type="string" indexed="true" stored="true" required="true" multiValued="false" />
  <field name="size" type="long" indexed="true" stored="true" />
  <field name="lastModified" type="date" indexed="true" stored="true" />

　　3、修改solrconfig.xml文件

 <lib dir="./lib" regex=".*\.jar"/>

　　4、導入文件

　　　　注意，txt文件編碼請保證是UTF-8編碼，默認txt文件的編碼是GBK

　　5、查詢

　　　　導入成功后，查詢

　　　　從上面可以看到，pdf和word文件是亂碼，必須用其它Processor進行處理

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 solr6.6 solrJ索引富文本(word/pdf)文件將txt、csv等文本文件導入Hive 使用sqlldr向Oracle導入大的文本（txt)文件 SQLite新建數據庫及txt文件（CSV文件）導入 R—讀取數據（導入csv,txt,excel文件） Bulk Insert：將文本數據（csv和txt）導入到數據庫中將json的文本文件轉換為csv文件 c#中txt/xml/json文件的讀寫操作導入txt和導出txt文件 Pandas——讀取csv,txt文件

solr6.6 導入 文本（txt/json/xml/csv）文件

1、建立的data-config.xml

2、修改managed-schema文件

3、修改solrconfig.xml文件

4、導入文件

5、查詢

免責聲明！

solr6.6 導入文本（txt/json/xml/csv）文件

　　1、建立的data-config.xml

　2、修改managed-schema文件

　　3、修改solrconfig.xml文件

　　4、導入文件

　　5、查詢