大數據除了Hadoop還有哪些常用的工具?


大數據除了Hadoop還有哪些常用的工具?

1.Hadoop大數據生態平台
Hadoop 是一個能夠對大量數據進行分布式處理的軟件框架。
但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。
Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。
Hadoop 還是可伸縮的,能夠處理 PB 級數據。
此外,Hadoop 依賴於社區服務器,因此它的成本比較低,任何人都可以使用。

2.Spark,大數據分析的“瑞士軍刀”
Spark 也是 Apache 基金會的開源項目,它由加州大學伯克利分校的實驗室開發,是另外一種重要的分布式計算系統。
它在 Hadoop 的基礎上進行了一些架構上的改良。
Spark 與 Hadoop 最大的不同點在於,Hadoop 使用硬盤來存儲數據,而 Spark 使用內存來存儲數據,因此 Spark 可以提供超過Hadoop100 倍的運算速度。
但是,由於內存斷電后數據會丟失,Spark 不能用於處理需要長期保存的數據。
目前 Spark 完成了大部分的數據挖掘算法由單機到分布式的改造,並提供了較方便的數據分析可視化界面。

3.Storm,實時大數據處理工具
Storm 是 Twitter 主推的分布式計算系統,它由 BackType 團隊開發,是 Apache 基金會的孵化項目。
它在 Hadoop 的基礎上提供了實時運算的特性,可以實時地處理大數據流。
不同於 Hadoop 和Spark,Storm 不進行數據的收集和存儲工作,它直接通過網絡實時地接收數據並且實時地處理數據,然后直接通過網絡實時地傳回結果。

4.Apache Drill
為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟件基金會發起了一項名為“Drill”的開源項目。Apache Drill 實現了 Google’s Dremel。

5.RapidMiner
RapidMiner是世界領先的數據挖掘解決方案,在一個非常大的程度上有着先進技術。它數據挖掘任務涉及范圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。
耶魯大學已成功地應用在許多不同的應用領域,包括文本挖掘,多媒體挖掘,功能設計,數據流挖掘,集成開發的方法和分布式數據挖掘。

6.Pentaho BI
Pentaho BI 平台不同於傳統的BI 產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。
其目的在於將一系列企業級BI產品、開源軟件、API等等組件集成起來,方便商務智能應用的開發。
它的出現,使得一系列的面向商務智能的獨立產品如Jfree、Quartz等等,能夠集成在一起,構成一項項復雜的、完整的商務智能解決方案。

===============
1.開源大數據生態圈Hadoop HDFS、Hadoop MapReduce, HBase、Hive 漸次誕生,早期Hadoop生態圈逐步形成.開源生態圈活躍,並免費,但Hadoop對技術要求高,實時性稍差.

2. 商用大數據分析工具一體機數據庫/數據倉庫(費用很高)
IBM PureData(Netezza), Oracle Exadata, SAP Hana等等.數據倉庫(費用較高)
Teradata AsterData, EMC GreenPlum, HP Vertica 等等.數據集市(費用一般)
QlikView、 Tableau 、國內永洪科技Yonghong Data Mart 等等.

前端展現用於展現分析的前端開源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等.

用於展現分析商用分析工具有Cognos,BO, Microsoft, Oracle,Microstrategy,QlikView、 Tableau 、國內永洪科技Yonghong Z-Suite等等.

===============
Top Tools (Platforms) / Technical Skills in Big Data Analytics:
第一個就是 Hadoop
Hadoop: Hadoop is one of the most in-demand tools in the field. It is an open source platform for distributed data storage.

NoSQL: Common database that are often the source of data crunched in Hadoop. In the world of Big Data Hadoop and NoSQL are opposite sides of a virtual cycle.

Flume: it allows businesses to collect, aggregate and move massive amount of log data.

Chef: Chef is a configuration management tool for server management. It can integrate with public cloud systems like Rackspace, Amazon EC2, Google Cloud Platform, OpenStack, Microsoft Azure etc.

ABAP: a programming tool from SAP.

Pig: a platform for analyzing large data sets with ease, better optimization and extensibility.

HBase: an open source platform for non-relational and distributed database

Cloudera: One of the most popular next-generation data management and analytics platforms. It provides one of the fastest, secure and fastest Apache Hadoop-based software, support and services.

MapReduce: a programming model for processing and generating large data sets on a cluster.

Cassandra: NoSQL database system designed for handling large data sets across commodity servers.

PaaS: a cloud computing service that provides platform to customers to develop, run and manage applications in the cloud without the need of building and maintaining complex underlying infrastructure.

YARN: a large-scale, distributed operating system for Big Data applications.

Hive: another platform analyzing large data sets. First created at Facebook, Hive is a data warehouse system for Hadoop that allows easy data summarization, ad-hoc queries, and analysis of large data sets.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM