什么是大數據(個人理解)


1、什么是大數據?

基本概念

在互聯網技術發展到現今階段,大量日常、工作等事務產生的數據都已經信息化,人類產生的數據量相比以前有了爆炸式的增長,以前的傳統的數據處理技術已經無法勝任,需求催生技術,一套用來處理海量數據的軟件工具應運而生,這就是大數據!

換個角度說,大數據是:

1、有海量的數據

2、有對海量數據進行挖掘的需求

3、有對海量數據進行挖掘的軟件工具(hadoopsparkstormflinktezimpala......

大數據在現實生活中的具體應用

電商推薦系統:基於海量的瀏覽行為、購物行為數據,進行大量的算法模型的運算,得出各類推薦結論,以供電商網站頁面來為用戶進行商品推薦。

精准廣告推送系統:基於海量的互聯網用戶的各類數據,統計分析,進行用戶畫像(得到用戶的各種屬性標簽),然后可以為廣告主進行有針對性的精准的廣告投放。

2、那什么是hadoop呢?

hadoop中有3個核心組件:

分布式文件系統:HDFS —— 實現將文件分布式存儲在很多的服務器上

分布式運算編程框架:MAPREDUCE —— 實現在很多機器上分布式並行運算

分布式資源調度平台:YARN —— 幫用戶調度大量的mapreduce程序,並合理分配運算資源

3、最后來說一下hdfs整體運行機制

hdfs:分布式文件系統

hdfs有着文件系統共同的特征:

1、有目錄結構,頂層目錄是:  /

2、系統中存放的就是文件

3、系統可以提供對文件的:創建、刪除、修改、查看、移動等功能

hdfs跟普通的單機文件系統有區別:

1、單機文件系統中存放的文件,是在一台機器的操作系統中

2hdfs的文件系統會橫跨N多的機器

3、單機文件系統中存放的文件,是在一台機器的磁盤上

4hdfs文件系統中存放的文件,是落在n多機器的本地單機文件系統中(hdfs是一個基於linux本地文件系統之上的文件系統)

hdfs的工作機制:

1、客戶把一個文件存入hdfs,其實hdfs會把這個文件切塊后,分散存儲在Nlinux機器系統中(負責存儲文件塊的角色:data node<准確來說:切塊的行為是由客戶端決定的>

2、一旦文件被切塊存儲,那么,hdfs中就必須有一個機制,來記錄用戶的每一個文件的切塊信息,及每一塊的具體存儲機器(負責記錄塊信息的角色是:name node

3、為了保證數據的安全性,hdfs可以將每一個文件塊在集群中存放多個副本(到底存幾個副本,是由當時存入該文件的客戶端指定的)

綜述:一個hdfs系統,由一台運行了namenode的服務器,和N台運行了datanode的服務器組成!

---------------------

希望大家多多關注

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM