DataHub 為數據分析提供了類似github的托管功能,並且讓大家在線運行Ipython notebook,共享數據分析代碼,從零開始學習數據分析的方法。DataHub 集數據收集管理,數據版本
http://datahub.top/ 數據分析基礎:http://datahub.top/course/?catalog=2
構建一個基於hadoop + hbase + ZooKeeper + hive的基礎數據處理分析平台
1、帶領組員設計並研發數據遷移組件 VDataHub、Hive 計算框架 Hamza ;
2、基於 Kafka 消息中間件的監控系統 Metis;
3、 對線上 HBase 集群進行調優、bug 修復.
hive(數據倉庫工具)
hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。
ElasticSearch是一個開源的分布式搜索引擎,具備高可靠性,支持非常多的企業級搜索用例。像Solr4一樣,是基於Lucene構建的。支持時間時間索引和全文檢索。官網:http://www.elasticsearch.org
它對外提供一系列基於java和http的api,用於索引、檢索、修改大多數配置。
寫這篇博客的的主要原因是ElasticSearch的網站只有一些簡單的介紹,質量不高,缺少完整的教程。我費了好大勁才把它啟動起來,做了一些比hello world更復雜一些的工作。我希望通過分享我的一些經驗來幫助對ElasticSearch(很強大的哦)感興趣的人在初次使用它的時候能夠節省些時間。學完這篇教程,你就掌握了它的基本操作——啟動、運行。我將從我的電腦上分享這個鏈接。