Spark:計算引擎,框架媒介,調用配置所處位置下的機器的硬件設施來實現調用配置。使用內存來存儲數據,運算快,斷電丟失。對應於Hadoop圈中的MapReduce
Hbase:分布式、面向列的數據庫,存儲和讀取媒介,來源於BigTable(一個結構化數據的分布式存儲系統),但HBase是一個非結構化數據存儲的數據庫。是Hadoop項目的子項目
非結構化、面向列、稀疏
Hadoop:分布式系統基礎框架,管理者。MapReduce使用硬盤存儲數據
Storm:流式實時計算框架,實時處理大數據流。不同於Hadoop和Spark,Storm不進行數據的收集和存儲工作,它直接通過網絡實時的接受數據並且實時的處理數據,然后直接通過網絡實時的傳回結果。
大數據:量大類多的數據集
大數據的技術基礎:MapReduce(分布式計算框架)、Google File System(分布式文件系統)和BigTable(數據存儲系統)
結構化數據:數字、符號等數據
非結構化數據:文本、圖像、聲音、視頻等數據
大數據分析:可視化分析(百度地圖春節人口遷移大數據)、數據挖掘算法(沃爾瑪啤酒與尿布、推薦、廣告)、預測性分析能力(金融分析、股票預測、氣象預測)、語義引擎(siri)、數據質量管理(去假留真)
分布式計算:把一組計算機通過網絡相互連接組成分散系統,然后將需要處理的大量數據分散成多個部分,交由分散系統內的計算機組同時計算,最后將這些計算結果合並得到最終的結果。
服務器集群:由互相連接在一起的服務器群所組成的一個並行式或分布式系統。服務器集群中的服務器運行同一個計算任務。因此,從外部看,這群服務器表現為一台虛擬的服務器,對外提供統一的服務。
生態圈及其組件:
互聯網科技發展蓬勃興起,人工智能時代來臨,抓住下一個風口。為幫助那些往想互聯網方向轉行想學習,卻因為時間不夠,資源不足而放棄的人。我自己整理的一份最新的大數據進階資料和高級開發教程,大數據學習群:199加上【427】最后加上210就可以找到組織學習 歡迎進階中和進想深入大數據的小伙伴加入。
藍色代表Hadoop生態系統組件,黃色Spark生態組件。Hadoop提供了Spark許多沒有的功能,比如分布式文件系統,而Spark 提供了實時內存計算,速度非常快。
HDFS:Hadoop的分布式文件系統組件,運行在通用硬件上,使大量數據分布式存儲到成千上百台機器
Hive、SparkSQL、Pig:數據倉庫系統
YARN:為不同任務分配資源
MLlib:Spark機器學習組件