大數據生態圈及重要組件

本文轉載自查看原文 2019-10-15 13:04 309 大數據學習/ 程序員/ 大數據入門/ 大數據開發/ 編程語言/ 大數據技術/ 大數據

Spark：計算引擎，框架媒介，調用配置所處位置下的機器的硬件設施來實現調用配置。使用內存來存儲數據，運算快，斷電丟失。對應於Hadoop圈中的MapReduce

Hbase：分布式、面向列的數據庫，存儲和讀取媒介，來源於BigTable（一個結構化數據的分布式存儲系統），但HBase是一個非結構化數據存儲的數據庫。是Hadoop項目的子項目

非結構化、面向列、稀疏

Hadoop：分布式系統基礎框架，管理者。MapReduce使用硬盤存儲數據

Storm：流式實時計算框架，實時處理大數據流。不同於Hadoop和Spark，Storm不進行數據的收集和存儲工作，它直接通過網絡實時的接受數據並且實時的處理數據，然后直接通過網絡實時的傳回結果。

大數據：量大類多的數據集

大數據的技術基礎：MapReduce（分布式計算框架）、Google File System（分布式文件系統）和BigTable（數據存儲系統）

結構化數據：數字、符號等數據

非結構化數據：文本、圖像、聲音、視頻等數據

大數據分析：可視化分析（百度地圖春節人口遷移大數據）、數據挖掘算法（沃爾瑪啤酒與尿布、推薦、廣告）、預測性分析能力（金融分析、股票預測、氣象預測）、語義引擎（siri）、數據質量管理（去假留真）

分布式計算：把一組計算機通過網絡相互連接組成分散系統，然后將需要處理的大量數據分散成多個部分，交由分散系統內的計算機組同時計算，最后將這些計算結果合並得到最終的結果。

服務器集群：由互相連接在一起的服務器群所組成的一個並行式或分布式系統。服務器集群中的服務器運行同一個計算任務。因此，從外部看，這群服務器表現為一台虛擬的服務器，對外提供統一的服務。

生態圈及其組件：

互聯網科技發展蓬勃興起，人工智能時代來臨，抓住下一個風口。為幫助那些往想互聯網方向轉行想學習，卻因為時間不夠，資源不足而放棄的人。我自己整理的一份最新的大數據進階資料和高級開發教程，大數據學習群：199加上【427】最后加上210就可以找到組織學習歡迎進階中和進想深入大數據的小伙伴加入。

藍色代表Hadoop生態系統組件，黃色Spark生態組件。Hadoop提供了Spark許多沒有的功能，比如分布式文件系統，而Spark 提供了實時內存計算，速度非常快。

HDFS：Hadoop的分布式文件系統組件，運行在通用硬件上，使大量數據分布式存儲到成千上百台機器

Hive、SparkSQL、Pig：數據倉庫系統

YARN：為不同任務分配資源

MLlib：Spark機器學習組件

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hadoop--大數據生態圈中最基礎、最重要的組件大數據SRE-生態圈組件介紹大數據Hadoop生態圈：Pig和Hive 大數據Hadoop生態圈介紹一文看懂大數據的技術生態圈學習Scala 進擊大數據Spark生態圈 Hadoop專業解決方案-第1章大數據和Hadoop生態圈大數據技術Hadoop入門理論系列之一----hadoop生態圈介紹一篇了解大數據架構及Hadoop生態圈一文看懂大數據的技術生態圈，Hadoop，hive，spark都有了