大數據生態圈及重要組件


Spark:計算引擎,框架媒介,調用配置所處位置下的機器的硬件設施來實現調用配置。使用內存來存儲數據,運算快,斷電丟失。對應於Hadoop圈中的MapReduce

Hbase:分布式、面向列的數據庫,存儲和讀取媒介,來源於BigTable(一個結構化數據的分布式存儲系統),但HBase是一個非結構化數據存儲的數據庫。是Hadoop項目的子項目

非結構化、面向列、稀疏

Hadoop:分布式系統基礎框架,管理者。MapReduce使用硬盤存儲數據

Storm:流式實時計算框架,實時處理大數據流。不同於Hadoop和Spark,Storm不進行數據的收集和存儲工作,它直接通過網絡實時的接受數據並且實時的處理數據,然后直接通過網絡實時的傳回結果。

大數據:量大類多的數據集

大數據的技術基礎:MapReduce(分布式計算框架)、Google File System(分布式文件系統)和BigTable(數據存儲系統)

結構化數據:數字、符號等數據

非結構化數據:文本、圖像、聲音、視頻等數據

大數據分析:可視化分析(百度地圖春節人口遷移大數據)、數據挖掘算法(沃爾瑪啤酒與尿布、推薦、廣告)、預測性分析能力(金融分析、股票預測、氣象預測)、語義引擎(siri)、數據質量管理(去假留真)

分布式計算:把一組計算機通過網絡相互連接組成分散系統,然后將需要處理的大量數據分散成多個部分,交由分散系統內的計算機組同時計算,最后將這些計算結果合並得到最終的結果。

服務器集群:由互相連接在一起的服務器群所組成的一個並行式或分布式系統。服務器集群中的服務器運行同一個計算任務。因此,從外部看,這群服務器表現為一台虛擬的服務器,對外提供統一的服務。

 

生態圈及其組件:

 

 

互聯網科技發展蓬勃興起,人工智能時代來臨,抓住下一個風口。為幫助那些往想互聯網方向轉行想學習,卻因為時間不夠,資源不足而放棄的人。我自己整理的一份最新的大數據進階資料和高級開發教程,大數據學習群:199加上【427】最后加上210就可以找到組織學習 歡迎進階中和進想深入大數據的小伙伴加入。

 

藍色代表Hadoop生態系統組件,黃色Spark生態組件。Hadoop提供了Spark許多沒有的功能,比如分布式文件系統,而Spark 提供了實時內存計算,速度非常快。

 

HDFS:Hadoop的分布式文件系統組件,運行在通用硬件上,使大量數據分布式存儲到成千上百台機器

Hive、SparkSQL、Pig:數據倉庫系統

YARN:為不同任務分配資源

MLlib:Spark機器學習組件


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM