Solr使用初探——Solr的安裝環境與配置


一、依賴包

http://mirrors.cnnic.cn/apache/lucene/solr/

我們選擇4.7.2的版本下載,因為4.8的版本需要jdk1.7的支持

1、  JDK 1.6以上

2、  solr-4.3.0.tgz

3、  Tomcat或者jetty(注意,solr包中本身就含有jetty的啟動相關內容):apache-tomcat-7.0.39.tar.gz

我用的是tomcat,因此以tomcat作為部署內容。

 

二、安裝

1、  解壓tomcat包

2、  可選:修改tomcat的啟動端口,缺省為8080,最主要設置頁面的URIencoding為UTF-8

3、  可選:啟動tomcat,並訪問,如果沒有錯誤,表示此內容已經OK

 

4、  解壓solr包

5、  dist/solr-4.3.0.war包拷貝到tomcat/webapps下。修改名字為solr

6、  重新啟動一下tomcat,這時會將war解開成一個目錄

7、  注意,啟動時,solr的應用除了自己的lib包之外,還依賴slf4j等相關包,我偷了個懶,將dist/*.jar, dist/solrj-lib/*.jar都拷貝到了tomcat/webapps/solr/WEB-INF/lib/下。

8、  在tomcat/conf/Catalina/localhost目錄下,增加solr.xml——對應到solr應用,其文件內容為:

<?xml version="1.0" encoding="UTF-8" ?>

<Context docBase="${TOMCAT_HOME}/webapps/solr.war" debug="0" crossContext="true">

    <Environment name="solr/home" type="java.lang.String" value="${TOMCAT_HOME}/solr" override="true"/>

</Context>

         此內容主要是為了配置solr/home變量

9、  將solr解開的包中對應的example/solr目錄(含內容)全部拷貝到${TOMCAT_HOME}也即tomcat解開的目錄下(這個用戶可以自行定義,因為其中包含了所有的索引數據,所以務必要搞一個存儲空間大一些的目錄

10、              重新啟動tomcat,這時訪問http://localhost:8080/solr會發現出了一個管理界面。注意,solr 4.3版本比較高,所以務必用比較新的瀏覽器來訪問這個管理界面。

 

三、部署

上述只是簡單安裝上了,但是可以增加文檔(注意不是上傳文檔)了,利用solr/update的服務。為了能夠支持PDF、word等rich document的識別,要配置solr/update/extract服務以及對中文的識別。

1、  支持tika配置

A、        修改solr/home目錄下的collection1/conf/solrconfig.xml文件,找尋“TikaLanguageIdentifierUpdateProcessorFactory”對應的配置塊,將其打開,缺省是關閉的。

B、        將Extract和Tika對應的jar包拷貝到solr能認識的地方。也可以修改上述“A”對應的文件的lib的配置,其主要格式如下:

<lib dir="../../../contrib/extraction/lib" regex=".*\.jar" />

         我偷了個懶,將solr包解壓后的contrib/extraction/lib目錄下的所有jar包放入了solr應用的lib目錄下——也即tomcat/webapps/solr/WEB-INF/lib下。

 

 

為Solr加入中文分詞器

1 下載分詞器:

配置的過程中出現了一些小問題,一下將詳細講下IK Analyzer的配置過程,配置非常的簡單,但是首先主要你的Solr版本是哪個,如果是3.x版本的用IKAnalyzer2012_u6.zip如 果是4.x版本的用IK Analyzer 2012FF_hf1.zip,一定要對應上,要不然會配置失敗。以下是詳細步驟:

1、下載IK Analyzer。

下載地址為:http://code.google.com/p/ik-analyzer/downloads/list

但是由於本國國情,需要翻牆才能下載,以下是本人親自上傳的資源,可以到以下頁面下載4.x或者3.x:

solr4.x:http://download.csdn.net/download/tjcyjd/8420639

solr3.x:http://download.csdn.net/download/tjcyjd/8420523


2、拷貝配置文件。

解壓壓縮包將IKAnalyzer.cfg.xml、stopword.dic拷貝至需要使用分詞器的core的conf下面,和core的schema.xml文件一個目錄。

拷貝IKAnalyzer2012FF_u1.jar到項目lib下。

3、修改schema.xml配置文件。

與其它分詞器的配置大體相同,在<types></types>配置項間加一段如下配置:

[html] view plain copy 在CODE上查看代碼片 派生到我的代碼片
  1. <fieldType name="text_ik" class="solr.TextField">     
  2.      <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>     
  3. </fieldType>    

最后就可以使用text_ik了

[html] view plain copy 在CODE上查看代碼片 派生到我的代碼片
  1. <field name="my_name" type="text_ik" indexed="true" stored="true" multiValued="false" />  


4、測試。

輸入:http://localhost:8080/solr,分詞效果如下

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM