轉自:http://www.jdon.com/bigdata/whatisbigdata.html
----------
你可能會問什么是大數據,它幾乎是每一個業務領域的最新趨勢?難道僅僅是炒作?
事實上"大數據"是一個非常簡單的術語 - 它只是說 - 一個非常大的數據集。有多大?確切答案是"你能想象的一樣大"!
這個數據集為何能如此大規模?因為數據可能來自無處不在,無時不變的: RFID傳感器,流量數據,用於收集氣象信息傳感器,手機的GPRS包,社交媒體網站的發布,數碼照片和視頻,在網上購買的交易記錄,你的名字!大數據是一個巨大的數據集,包含來自於每一個信息源產生的我們感興趣的數據。
大數據的特點是四個主要方面:數量,品種繁多,速度和准確性(價值)英文:Volume, Variety, Velocity,和 Veracity ,被稱為"大數據的四大V" 。
Volume數量
數量是指能夠捕捉,存儲和訪問的業務數據量。僅在過去的兩年中,產生全球90%的數據。目前大部分組織已經不堪重負如此巨大的數據量,已經積累至TB級甚至PB級,其中一些需要進行組織,保存和分析。
Variety品種
全球80%的數據是半結構化的。傳感器,智能設備和社交媒體都是生成此類數據,網站日志,社交媒體論壇,音頻,視頻,點擊流,電子郵件,文件,傳感器系統等也都是。傳統的分析解決方案可以很好工作於結構化數據,例如關系型數據庫中的數據以及形成的模式。支持各種數據類型的存儲和分析在今天需求擴大,需要綜合表示各種類型的數據,不能簡單地捕獲傳統的關系數據庫管理的數據,而且很容易地實現存儲和數據分析的大數據技術呼之欲出。
Velocity速度
速度就是需要實時的數據分析,"有時耽誤2分鍾為時已晚!" 。為獲得競爭優勢,意味着你的競爭對手可能會在你幾分鍾甚至幾秒鍾之前識別趨勢或機會。另一個例子是對時間敏感的處理過程,例如,捕捉信息欺詐,因為它時刻會流進您的企業,因此必須實時加以分析。時間敏感的數據有一個很短的保質期;一些有名的織都在近實時對它們進行分析。
Veracity 真實性價值
基於數據我們創造機會和獲取價值。數據是所有決定的支持,所以如果你正在尋找可以對您的業務有重大影響的決策,你會希望盡可能多的信息來可以支持你的決策。然而,分離單獨的數據量並不能提供足夠的信任,數據的真實性和質量是最重要的,因此,建立在大數據解決方案的決策是最大挑戰,是實現成功決策的堅實基礎。
下面是基於Java支持大數據的產品:
Hadoop
Hadoop分HDFS和Map/reduce,HDFS是Hadoop的主要分布式存儲。一個HDFS集群主要由一個NameNode(管理文件系統的元數據)和存儲實際數據的DataNode組成。 HDFS是專門設計用於存儲大量的數據,實現了存取優化。
Hadoop的MapReduce是一個軟件框架,可方便地編寫應用程序處理大量的數據(多是TB數據集),在服務器硬件數千個節點的大型集群上實現一個可靠的,容錯的方式並行運行的系統。
詳細進入:Hadoop大數據批處理架構
Apache HBase
Apache HBase是Hadoop的數據庫,一個分布式的,可擴展的數據存儲。它提供了隨機,實時讀/寫訪問大數據,並進行了優化承載非常大的數據表 - 數十億行乘以百萬列 -,實現服務器硬件之上集群。在其核心Apache HBase是一個分布式的面向列的數據庫,屬於谷歌的Bigtable:Apache HBase在Hadoop和HDFS之上提供了類似於Bigtable的能力。
詳細進入:NOSQL之旅---HBase
Apache Cassandra
Apache Cassandra是一個高性能,可擴展性和高線性可用的數據庫,可以運行在服務器或雲基礎設施上,為關鍵任務數據提供完美的平台,。 Cassandra支持多個數據中心之間復制是同類產品中最好,為用戶提供更低的延遲,甚至不懼怕停電。 Cassandra的數據模型提供了便利的列索引,高性能試圖和強大的內置緩存。
詳細進入:Cassandra專題
Apache Hive
Apache蜂巢Hive是Hadoop的數據倉庫系統,方便簡單的數據匯總工具,對存儲在Hadoop兼容的文件系統上大型數據集實現查詢和分析。Hive提供了查詢數據類似SQL的語言稱為HiveQL。同時,這語言也可以讓傳統的map / reduce程序員嵌入他們的自定義maperhe reducer.
詳細進入:Hive架構
Apache Pig
Apache Pig是一個用於分析大型數據集的平台。它包含一個高層次的編寫數據分析程序的腳本語言,Pigde 程序的顯着屬性是它適合進行大量的並行化,輪流處理非常大的數據集。pig的基礎設施層由產生的序列Map-Reduce程序的編譯器組成。豬的語言稱為Pig Latin,易於開發編程並考慮了擴展性與易用性。
Apache Chukwa
是一個開源大型分布式系統的數據采集監視系統。它是建立在Hadoop分布式文件系統(HDFS)和Map/ Reduce框架之上,並繼承了Hadoop的可伸縮性和健壯性。 Chukwa還包括一個靈活而強大的工具包,用於顯示,監測和分析結果,以便做出最佳地使用所收集的數據。
Apache Ambari
是一個基於Web的工具,用於配置,管理和監控的Apache Hadoop集群,包括支持HBase,Hadoop的MapReduce,Hadoop的HDFS,蜂房Hive,HCatalog的ZooKeeper,Oozie,Pig和Sqoop。還提供了儀表盤查看集群的健康,如熱圖,並能夠虛擬化查看MapReduce,Pig和Hive應用,以用戶友好的方式來診斷其性能特點。
Apache ZooKeeper
是一種集中式的服務(負載平衡器),維護配置信息,提供命名,提供分布式的同步,並提供團體服務。Apache ZooKeeper協調運行在Hadoop集群上的分布式應用程序。
Apache Sqoop
Apache Sqoop的是一個專為Apache Hadoop設計的轉換工具,在與關系數據庫的結構化數據存儲之間高效地傳輸大量數據。
Apache Oozie
Apache Oozie是一個管理Apache Hadoop作業的可擴展的,可靠的和可擴展的工作流調度系統。 Oozie工作流程的工作都是由DAG(irected Acyclical Graphs)指揮。Oozie協調工作常是由頻繁的數據到達觸發的Oozie工作流工作。 Oozie集成支持幾種類型的Hadoop作業開箱(Java map-reduce, Streaming map-reduce, Pig, Hive, Sqoop and Distcp)以及系統的具體工作(shell腳本)。
Apache Mahout
Apache Mahout是一個可擴展的機器學習和數據挖掘庫。目前Mahout的支持主要是四個用例:
推薦挖掘:試圖找到用戶的行為和可能會喜歡的項目。
集群:找到文本文件相關處,然后將他們分為局部文件。
分類:從現有的分類中學習,能夠分配到正確的類別。
頻繁項集挖掘:需要項目組(查詢會話中,購物車的內容),並確定,其中個別項目通常一起出現。
Apache HCatalog
Apache HCatalog是一個使用Apache的Hadoop創建的數據表和存儲管理服務。這包括:
- 提供一個共享的架構和數據類型的機制。
- 提供一個表抽象,使用戶不必關心在哪里或如何存儲他們的數據。
- 數據處理工具,如Pig,地Map Reduce,和Hive提供的互操作性。
