DataHub


DataHub 為數據分析提供了類似github的托管功能,並且讓大家在線運行Ipython notebook,共享數據分析代碼,從零開始學習數據分析的方法。DataHub 集數據收集管理,數據版本

http://datahub.top/ 數據分析基礎:http://datahub.top/course/?catalog=2

 

構建一個基於hadoop + hbase + ZooKeeper + hive的基礎數據處理分析平台

 

1、帶領組員設計並研發數據遷移組件 VDataHub、Hive 計算框架 Hamza ;
2、基於 Kafka 消息中間件的監控系統 Metis;
3、 對線上 HBase 集群進行調優、bug 修復.

hive(數據倉庫工具)

hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。

 

ElasticSearch是一個開源的分布式搜索引擎,具備高可靠性,支持非常多的企業級搜索用例。像Solr4一樣,是基於Lucene構建的。支持時間時間索引和全文檢索。官網:http://www.elasticsearch.org

它對外提供一系列基於java和http的api,用於索引、檢索、修改大多數配置。

寫這篇博客的的主要原因是ElasticSearch的網站只有一些簡單的介紹,質量不高,缺少完整的教程。我費了好大勁才把它啟動起來,做了一些比hello world更復雜一些的工作。我希望通過分享我的一些經驗來幫助對ElasticSearch(很強大的哦)感興趣的人在初次使用它的時候能夠節省些時間。學完這篇教程,你就掌握了它的基本操作——啟動、運行。我將從我的電腦上分享這個鏈接。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM