數據在千萬級別上進行全文檢索有哪些技術?強大的大數據全文索引解決方案-ClouderaSearch


數據在千萬級別上進行全文檢索有哪些技術?強大的大數據全文索引解決方案-ClouderaSearch
1.lucene (solr, elasticsearch 都是基於它)
2.sphinx
3.elasticsearch 簡單易用。天生分布式。
4.HBasene(注意HBase后面加了ne就是 HBase+lucene)。

solr的請求基本都封裝為了http,如果是http服務效率不好呢繞過它,直接透過lucene的API進行查詢。
但是solr雲的方式部署進行了負載均衡,效率不會太差。
應用查詢條件最多20個左右,10個solr節點,每個節點的數據1億左右。
但是索引不是寫在本地磁盤,是寫在hdfs上的。

================================
強大的大數據全文索引解決方案-ClouderaSearch
ClouderaSearch帶來了全文索引,實時查詢和針對CDH和你的企業級數據中心的擴展、靈活性的索引服務。
由Apache Hadoop和Apache Solr提供,是企業級的開源搜索。
Cloudera Search帶來了擴展性和可靠性的新一代集成,多個工作任務的搜索。
通過它與CDH獨特的整合,Cloudera Search獲得了同樣的容錯性,擴展性,可見性,安全性,以及靈活性的提供其他企業級數據中心的工作。

關鍵特征:
1.全文索引和小面(faceted,與solr一樣)導航,基於Hadoop和HBase中的內容
2.可以基於MapReduce實現批量索引。
3.通過GO-LIVE對動態索(Dynamic index)引進行更新
4.針對實時查詢,集成了Flume和Lily HBase indexer。
5.無模式(Schema-less)和動態字段的支持,使schema管理更簡單
6.針對hadoop優化的字段格式做了“開箱即可用”(Out-of-the-box)字段的提取
7.多文件(Multi-file)格式的支持和集成能力
8.通過HDFS,實現擴展性和容錯性索引存儲和訪問
9.與Apache Sentry的集成,實現了基於角色,細粒度的權限控制
10.通過使用Morphlines重用了數據配置通過工作量
11.與其他hadoop服務共用了基礎設施,資源和數據
12.通過使用Index Aliasing 和 Oozie workflows,使用數據遷移和服務更簡單
13.在Hue中有簡單,可配置的,基於面(faceted)和全文搜索的UI可以使用
14.所有標准的搜索特征在Solr和SolrCloud中有的
15.跨平台的監控,可見性,資源控制,通過ClouderaManager實現

Cloudera Search是一個整合了Lily,solr(solr cloud),HBase,Hadoop,Flume等,以及使用ClouderaManager來進行管理的全文索引解決方案。
任何人使用這個框架都可以輕松搭建一個與google和百度類似的搜索服務。由此可以看出這個框架的強大之處。

參考官網: http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/search.html

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM