前言

在介紹Lucene之前，我們來了解相關的歷史。

有必要了解的Apache

Apache軟件基金會（也就是Apache Software Foundation，簡稱為ASF）是專門為運作一個開源軟件項目的Apache 的團體提供支持的非盈利性組織，這個開源軟件的項目就是 Apache 項目。
最初，Apache基金會的開發愛好者開發並維護一個叫Apache的HTTP服務器。
后來，Apache服務器越來越火，就啟動了更多的項目，比如PHP、Java Apache以及更多的子項目。比如Jakarta。

Jakarta

Jakarta是為了發展Java容器而啟動的Java Apache的項目。后來隨着Java的火爆而成為了囊括了眾多基於Java語言開源軟件子項目的項目。比如從這里孵化出了Tomcat、ant、Struts、Lucene。

Lucene

Lucene是Apache軟件基金會4 jakarta項目的子項目。它是一個開源的全文檢索引擎工具包。但它並不是一個完整的全文檢索引擎，而是一個全文檢索引擎的架構，提供了完整的查詢引擎和索引引擎，部分文本分析引擎（英文與德文兩種西方語言）。Lucene的目的是為軟件開發人員提供一個簡單易用的工具包，以方便的在目標系統中實現全文檢索的功能，或者是以此為基礎建立起完整的全文檢索引擎。Lucene是一套用於全文檢索和搜尋的開源程式庫，由Apache軟件基金會支持和提供。Lucene提供了一個簡單卻強大的應用程式接口，能夠做全文索引和搜尋。在Java開發環境里Lucene是一個成熟的免費開源工具。
最后，引用來自《Elasticsearch權威指南》書中關於Lucene的描述作為總結：

Lucene可以被認為是迄今為止最先進、性能最好的、功能最全的搜索引擎庫。
但是，Lucene只是一個庫。想要使用它，你必須使用Java來作為開發語言並將其直接集成到你的應用中，更糟糕的是，Lucene非常復雜，你需要深入了解檢索的相關知識來理解它是如何工作的。

常見的開源搜索引擎

基於Lucene的搜索引擎，Java開發，包括：

Lucene
Solr
elasticsearch
katta
compass

基於C++開發的：

Sphinx

你可以想想Lucene的強大。接下來簡要的介紹各搜索引擎的特點。

Lucene

Lucene的開發語言是Java，也是Java家族中最為出名的一個開源搜索引擎，在Java世界中已經是標准的全文檢索程序，它提供了完整的查詢引擎和索引引擎，沒有中文分詞引擎，需要自己去實現，因此用Lucene去做一個搜素引擎需要自己去架構，另外它不支持實時搜索。
優點：

成熟的解決方案，有很多的成功案例。apache 頂級項目，正在持續快速的進步。龐大而活躍的開發社區，大量的開發人員。它只是一個類庫，有足夠的定制和優化空間：經過簡單定制，就可以滿足絕大部分常見的需求；經過優化，可以支持 10億+ 量級的搜索

缺點：

需要額外的開發工作。所有的擴展，分布式，可靠性等都需要自己實現；非實時，從建索引到可以搜索中間有一個時間延遲，而當前的“近實時”(Lucene Near Real Time search)搜索方案的可擴展性有待進一步完善

Solr

Solr是一個企業級的高性能、采用Java開發，基於Lucene的全文搜索服務器。
文檔通過Http利用XML加到一個搜索集合中。

查詢該集合也是通過 http收到一個XML/JSON響應來實現。它的主要特性包括：高效、靈活的緩存功能，垂直搜索功能，高亮顯示搜索結果，通過索引復制來提高可用性，提供一套強大Data Schema來定義字段，類型和設置文本分析，提供基於Web的管理界面等。
優點：

Solr有一個更大、更成熟的用戶、開發和貢獻者社區
支持添加多種格式的索引，如：HTML、PDF、微軟 Office 系列軟件格式以及 JSON、XML、CSV 等純文本格式
Solr比較成熟、穩定
不考慮建索引的同時進行搜索，速度更快

缺點：

建立索引時，搜索效率下降，實時索引搜索效率不高

Sphinx

Sphinx一個基於SQL的全文檢索引擎，特別為一些腳本語言（PHP,Python，Perl，Ruby）設計搜索API接口。

Sphinx是一個用C++語言寫的開源搜索引擎，也是現在比較主流的搜索引擎之一，在建立索引的時間方面比Lucene快50%，但是索引文件比Lucene要大一倍，因此Sphinx在索引的建立方面是空間換取時間的策略，在檢索速度上，和lucene相差不大，但檢索精准度方面Lucene要優於Sphinx，另外在加入中文分詞引擎難度方面，Lucene要優於Sphinx.其中Sphinx支持實時搜索，使用起來比較簡單方便.

Sphinx可以非常容易的與SQL數據庫和腳本語言集成。當前系統內置MySQL和PostgreSQL 數據庫數據源的支持，也支持從標准輸入讀取特定格式的XML數據。通過修改源代碼，用戶可以自行增加新的數據源（例如：其他類型的DBMS 的原生支持）
Sphinx的特點：

高速的建立索引(在當代CPU上，峰值性能可達到10 MB/秒)
高性能的搜索(在2 – 4GB 的文本數據上，平均每次檢索響應時間小於0.1秒)
可處理海量數據(目前已知可以處理超過100 GB的文本數據, 在單一CPU的系統上可處理100 M 文檔)
提供了優秀的相關度算法，基於短語相似度和統計（BM25）的復合Ranking方法
支持分布式搜索
支持短語搜索
提供文檔摘要生成
可作為MySQL的存儲引擎提供搜索服務
支持布爾、短語、詞語相似度等多種檢索模式
文檔支持多個全文檢索字段(最大不超過32個)
文檔支持多個額外的屬性信息(例如：分組信息，時間戳等)
支持斷詞

elasticsearch

ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分布式多用戶能力的全文搜索引擎，基於RESTful web接口。Elasticsearch是用Java開發的，並作為Apache許可條款下的開放源碼發布，是當前流行的企業級搜索引擎。設計用於雲計算中，能夠達到實時搜索，穩定，可靠，快速，安裝使用方便。
優點：

分布式：節點對外表現對等，加入節點自動均衡
elasticsearch完全支持Apache Lucene的接近實時的搜索
各節點組成對等的網絡結構，當某個節點出現故障時會自動分配其他節點代替期進行工作
橫向可擴展性，如果你需要增加一台服務器，只需要做點配置，然后啟動就完事了
高可用：提供復制（replica）機制，一個分片可以設置多個復制，使得某台服務器宕機的情況下，集群仍舊可以照常運行，並會把由於服務器宕機丟失的復制恢復到其它可用節點上；這點也類似於HDFS的復制機制（HDFS中默認是3份復制）

缺點：

不支持事物
相對吃內存

see also：[Apache Lucene](https://lucene.apache.org/) | [開源搜索引擎分類](https://blog.csdn.net/belalds/article/details/82667692) | [ElasticSearch vs Solr多維度分析對比](https://www.cnblogs.com/zlslch/p/6612639.html) | [Lucene：基於Java的全文檢索引擎簡介](https://www.chedong.com/tech/lucene.html) 歡迎斧正，that's all

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 lucene和ElasticSearch基本概念 Elasticsearch和Lucene的關系 Elasticsearch和Lucene分段 Apache Lucene 幾種分詞系統 ElasticSearch（es）基於Lucene的搜索服務器 ElasticSearch 學習記錄之ES如何操作Lucene段 ElasticSearch vs Lucene多維度分析對比查看lucene和elasticsearch的版本對應關系全文索引Elasticsearch,Solr,Lucene ElasticSearch 2 (10) - 在ElasticSearch之下（深入理解Shard和Lucene Index）