(四) solr 索引数据导入：pdf格式

本文转载自查看原文 2012-10-29 12:10 4356 solr

一个偶然需求，需要对pdf（非扫描）文档进行索引，

schema.xml

< fields >
< field name ="id" type ="string" indexed ="true" stored ="true" required ="true" />
    < field name ="content" type ="text_general" indexed ="true" stored ="true" required ="true" />
    < field name ="size" type ="slong" indexed ="true" stored ="true" required ="true" />
    < dynamicField name ="ignored_*" type ="ignored" multiValued ="true" indexed ="false" stored ="false" />
</ fields >
< uniqueKey >id </ uniqueKey >
< defaultSearchField >content </ defaultSearchField >
< solrQueryParser defaultOperator ="AND" />

solrconfig.xml需要配置的地方为：

< requestHandler name ="/update/extract"
                  startup ="lazy"
                  class ="solr.extraction.ExtractingRequestHandler" >
     < lst name ="defaults" >
       
       < str name ="fmap.content" >content </ str >
       < str name ="fmap.stream_size" >size </ str >
       < str name ="lowernames" >true </ str >
       < str name ="uprefix" >ignored_ </ str >
       
       < str name ="captureAttr" >true </ str >
       
       
     </ lst >
   </ requestHandler >

参数解释：

fmap.source=target : 映射规则，将在pdf文件中提取出的字段（source）映射到solr中的字段(tar)

uprefix : 如果指定了该参数，任何在schema中未定义的字段，都将以该参数指定的值作为字段名前缀

defaultField ：如果没有指定uprefix参数值，且有字段无法在schema中无法检测到，则使用defaultField指定的字段名

captureAttr ：(true|false)捕获属性，对Tika XHTML 元素的属性进行索引。

literal：自定义metadata信息，也就是给schema文件中定义的某一个字段指定一个值

提交文档进行索引：

curl "http://localhost:8983/solr/update/extract?literal.id=doc2&captureAttr=true&defaultField=ignored_undefined" -F "commit=true" -F "file=@t2.pdf"

具体的参考文档：

http://wiki.apache.org/solr/ExtractingRequestHandler

注：对word文档的处理与pdf的方法一样哦

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 (三) solr 索引数据导入：json格式 [solr] - 索引数据删除 python 操作solr索引数据 ES删除索引数据将数据库表导入到solr索引 solr 导入数据 elasticsearch 索引数据多了怎么办，如何调优，部署 ? 使用SQL语句查询Elasticsearch索引数据 Kibana+ElasticSearch实现索引数据的几种查询方式使用Solr索引MySQL数据

(四) solr 索引数据导入 ：pdf格式

免责声明！

(四) solr 索引数据导入：pdf格式