(四) solr 索引數據導入：pdf格式

本文轉載自查看原文 2012-10-29 12:10 4356 solr

一個偶然需求，需要對pdf（非掃描）文檔進行索引，

schema.xml

< fields >
< field name ="id" type ="string" indexed ="true" stored ="true" required ="true" />
    < field name ="content" type ="text_general" indexed ="true" stored ="true" required ="true" />
    < field name ="size" type ="slong" indexed ="true" stored ="true" required ="true" />
    < dynamicField name ="ignored_*" type ="ignored" multiValued ="true" indexed ="false" stored ="false" />
</ fields >
< uniqueKey >id </ uniqueKey >
< defaultSearchField >content </ defaultSearchField >
< solrQueryParser defaultOperator ="AND" />

solrconfig.xml需要配置的地方為：

< requestHandler name ="/update/extract"
                  startup ="lazy"
                  class ="solr.extraction.ExtractingRequestHandler" >
     < lst name ="defaults" >
       
       < str name ="fmap.content" >content </ str >
       < str name ="fmap.stream_size" >size </ str >
       < str name ="lowernames" >true </ str >
       < str name ="uprefix" >ignored_ </ str >
       
       < str name ="captureAttr" >true </ str >
       
       
     </ lst >
   </ requestHandler >

參數解釋：

fmap.source=target : 映射規則，將在pdf文件中提取出的字段（source）映射到solr中的字段(tar)

uprefix : 如果指定了該參數，任何在schema中未定義的字段，都將以該參數指定的值作為字段名前綴

defaultField ：如果沒有指定uprefix參數值，且有字段無法在schema中無法檢測到，則使用defaultField指定的字段名

captureAttr ：(true|false)捕獲屬性，對Tika XHTML 元素的屬性進行索引。

literal：自定義metadata信息，也就是給schema文件中定義的某一個字段指定一個值

提交文檔進行索引：

curl "http://localhost:8983/solr/update/extract?literal.id=doc2&captureAttr=true&defaultField=ignored_undefined" -F "commit=true" -F "file=@t2.pdf"

具體的參考文檔：

http://wiki.apache.org/solr/ExtractingRequestHandler

注：對word文檔的處理與pdf的方法一樣哦

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 (三) solr 索引數據導入：json格式 (五) solr 索引數據導入：csv格式 (二) solr 索引數據導入：xml格式 Solr索引數據 [solr] - 索引數據刪除 python 操作solr索引數據 Java solr 索引數據增刪改查【solr】SolrCloud中索引數據存儲於HDFS solr開發,提交索引數據的幾種方式將Mysq數據導入solr索引庫

(四) solr 索引數據導入 ：pdf格式

免責聲明！

(四) solr 索引數據導入：pdf格式