數據在千萬級別上進行全文檢索有哪些技術？強大的大數據全文索引解決方案-ClouderaSearch

本文轉載自查看原文 2017-01-16 16:28 6527 Hadoop/ lucene/ 全文檢索/ 系統架構/ sphinx/ java/ elasticsearch/ solr/ ClouderaSearch/ hdfs/ hadoop/ 數據庫/ 大數據

數據在千萬級別上進行全文檢索有哪些技術？強大的大數據全文索引解決方案-ClouderaSearch
1.lucene (solr, elasticsearch 都是基於它）
2.sphinx
3.elasticsearch 簡單易用。天生分布式。
4.HBasene（注意HBase后面加了ne就是 HBase+lucene）。

solr的請求基本都封裝為了http，如果是http服務效率不好呢繞過它，直接透過lucene的API進行查詢。
但是solr雲的方式部署進行了負載均衡，效率不會太差。
應用查詢條件最多20個左右，10個solr節點，每個節點的數據1億左右。
但是索引不是寫在本地磁盤，是寫在hdfs上的。

================================
強大的大數據全文索引解決方案-ClouderaSearch
ClouderaSearch帶來了全文索引，實時查詢和針對CDH和你的企業級數據中心的擴展、靈活性的索引服務。
由Apache Hadoop和Apache Solr提供，是企業級的開源搜索。
Cloudera Search帶來了擴展性和可靠性的新一代集成，多個工作任務的搜索。
通過它與CDH獨特的整合，Cloudera Search獲得了同樣的容錯性，擴展性，可見性，安全性，以及靈活性的提供其他企業級數據中心的工作。

關鍵特征:
1.全文索引和小面（faceted，與solr一樣）導航，基於Hadoop和HBase中的內容
2.可以基於MapReduce實現批量索引。
3.通過GO-LIVE對動態索（Dynamic index）引進行更新
4.針對實時查詢，集成了Flume和Lily HBase indexer。
5.無模式（Schema-less）和動態字段的支持，使schema管理更簡單
6.針對hadoop優化的字段格式做了“開箱即可用”（Out-of-the-box）字段的提取
7.多文件（Multi-file）格式的支持和集成能力
8.通過HDFS，實現擴展性和容錯性索引存儲和訪問
9.與Apache Sentry的集成，實現了基於角色，細粒度的權限控制
10.通過使用Morphlines重用了數據配置通過工作量
11.與其他hadoop服務共用了基礎設施，資源和數據
12.通過使用Index Aliasing 和 Oozie workflows，使用數據遷移和服務更簡單
13.在Hue中有簡單，可配置的，基於面（faceted）和全文搜索的UI可以使用
14.所有標准的搜索特征在Solr和SolrCloud中有的
15.跨平台的監控，可見性，資源控制，通過ClouderaManager實現

Cloudera Search是一個整合了Lily，solr（solr cloud），HBase，Hadoop，Flume等，以及使用ClouderaManager來進行管理的全文索引解決方案。
任何人使用這個框架都可以輕松搭建一個與google和百度類似的搜索服務。由此可以看出這個框架的強大之處。

參考官網： http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/search.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MySQL中文全文檢索解決方案 java 從Oracle數據庫到處數據到Elasticsearch全文檢索庫進行全文查詢數據庫全文檢索 oracle 全文檢索技術全文索引--海量數據模糊查詢對服務器上所有Word文件做全文檢索的解決方案-Java 全文檢索引擎Solr的配置 mysql5.6 InnoDB 全文索引 FULLTEXT 中文解決方案 base64 什么是全文檢索 ElasticSearch全文檢索