Apache Solr 4.0 發布一段時間了,最新的solr修改動作還是很大的,尤其從后台管理界面來看,體驗和管理更加方便了。默認使用了multi-core模式,以及支持了對多個collection的管理、監控、優化。從內核來看,Solr 4也帶來了很多新東西,如Solr Cloud、Realtime GET、NRT(Near-Real-Time Search)、Master/Slave擴展與ZooKeeper集成、Join查詢等。
安裝SOLR 4
1. 下載Solr4 http://lucene.apache.org/solr/
2. 解壓縮,進入example文件夾下面
3. 啟動Solr
java -jar start.jar
啟動沒有報錯的話solr 已經安裝完成可以使用了。打開瀏覽器,鍵入網址 http://localhost:8983/solr/ ,可以看到如下的solr界面:
新的solr管理admin管理界面主要有 Dashboard、日志、solr集合管理、線程管理以及系統信息,然后每一個collection會有單獨的查詢、檢索等管理界面。
進入collection1(默認的一個collection),可以看到如下管理collection的菜單:
SOLR以前的界面是非AJAX形式的,並且多個collection沒有一個統一的UI接口,大家可以參考以前的SOLR系列中的截圖,看看SOLR 4.0之前的樣子。
SOLR 4 APIs
雖然Solr4的后台管理變化比較大,但API的url變化卻不是很大,我們列舉出來solr 4的API的url,以供大家參考。
/admin/file /admin/logging /admin/luke /admin/mbeans /admin/ping /admin/plugins /admin/properties /admin/system /admin/threads /analysis/document /analysis/field /browse /debug/dump /elevate /get /query /replication /select /spell /terms /tvrh /update /update/csv /update/extract /update/json
目前solr 4和drupal的集成還沒有現成可用的模塊,不過由於交互URL沒有太多變化,相信對現有的API做一些修改就可以直接讓drupal與solr4集成。
LucidWorks
最后我們介紹一下LucidWorks。LucidWorks是一款企業級的Solr的應用,包括SOLR的集成、各種數據的索引(文件、FTP、數據庫、WEB-HTTP、Hadoop、亞馬遜雲等)、索引的管理、服務器的監控等等。之前叫LucidImagination,重命名后叫LucidWorks。
以下兩張截圖可以看看LucidWorks的大概工作流程。
LucidWorks Dashboard
LucidWorks索引數據源管理
一個小細節:以前筆者在測試LucidImagination (LucidWorksd前身)的時候,發現使用的SOLR4以及新版本的admin UI,但是剛剛在測試最新版本的時候,發現用的是舊版本的Admin UI,beta版本的solr4,這點比較奇怪。
LucidWorks Big Data
LucidWorks Big Data 是一個集成的搜索服務,提供大數據海量數據的管理、檢索、查詢服務,主要涵蓋以下組件:
Product | Brief Description | Version |
LucidWorks | Provides search and discovery capabilities, plus connectors to common data sources | 2.1 plus plugins – Solr 4.0-SNAPSHOT |
Apache Hadoop | Provides Distributed storage and general purpose distributed computation | 1.0.2 |
Apache Mahout | Scalable Machine Learning | 0.6 |
Apache HBase | Provides distributed storage for fast lookups based on Hadoop. Used to store metrics, user info and history, time series data | 0.92 |
Apache ZooKeeper | Provides distributed synchronization, configuration, etc. | 3.4.3 |
Apache Pig | Provides high-level language for manipulating large data sets for analytics and ETL | 0.9.2 |
Apache Kafka | Provides distributed pub-sub mechanism for real time distributed data sharing and for aggregating logs into HDFS | 0.7.0 (incubating) |
Apache Oozie | Distributed Workflow coordination | 3.2.0-SNAPSHOT for compatibility with Hadoop 1.0.2 |
Restlet | REST API capabilities | 2.1-rc3 |
Behemoth | Hadoop based document processing workflow | Trunk |
LucidWorks Product Suite
參考站點