什么是大數據（個人理解）

本文轉載自查看原文 2019-01-03 09:42 1044 hadoop/ 大數據

1、什么是大數據？

基本概念

在互聯網技術發展到現今階段，大量日常、工作等事務產生的數據都已經信息化，人類產生的數據量相比以前有了爆炸式的增長，以前的傳統的數據處理技術已經無法勝任，需求催生技術，一套用來處理海量數據的軟件工具應運而生，這就是大數據！

換個角度說，大數據是：

1、有海量的數據

2、有對海量數據進行挖掘的需求

3、有對海量數據進行挖掘的軟件工具（hadoop、spark、storm、flink、tez、impala......）

大數據在現實生活中的具體應用

電商推薦系統：基於海量的瀏覽行為、購物行為數據，進行大量的算法模型的運算，得出各類推薦結論，以供電商網站頁面來為用戶進行商品推薦。

精准廣告推送系統：基於海量的互聯網用戶的各類數據，統計分析，進行用戶畫像（得到用戶的各種屬性標簽），然后可以為廣告主進行有針對性的精准的廣告投放。

2、那什么是hadoop呢？

hadoop中有3個核心組件：

分布式文件系統：HDFS —— 實現將文件分布式存儲在很多的服務器上

分布式運算編程框架：MAPREDUCE —— 實現在很多機器上分布式並行運算

分布式資源調度平台：YARN —— 幫用戶調度大量的mapreduce程序，並合理分配運算資源

3、最后來說一下hdfs整體運行機制

hdfs：分布式文件系統

hdfs有着文件系統共同的特征：

2、系統中存放的就是文件

3、系統可以提供對文件的：創建、刪除、修改、查看、移動等功能

hdfs跟普通的單機文件系統有區別：

1、單機文件系統中存放的文件，是在一台機器的操作系統中

2、hdfs的文件系統會橫跨N多的機器

3、單機文件系統中存放的文件，是在一台機器的磁盤上

4、hdfs文件系統中存放的文件，是落在n多機器的本地單機文件系統中（hdfs是一個基於linux本地文件系統之上的文件系統）

hdfs的工作機制：

1、客戶把一個文件存入hdfs，其實hdfs會把這個文件切塊后，分散存儲在N台linux機器系統中（負責存儲文件塊的角色：data node）<准確來說：切塊的行為是由客戶端決定的>

2、一旦文件被切塊存儲，那么，hdfs中就必須有一個機制，來記錄用戶的每一個文件的切塊信息，及每一塊的具體存儲機器（負責記錄塊信息的角色是：name node）

3、為了保證數據的安全性，hdfs可以將每一個文件塊在集群中存放多個副本（到底存幾個副本，是由當時存入該文件的客戶端指定的）

綜述：一個hdfs系統，由一台運行了namenode的服務器，和N台運行了datanode的服務器組成！

---------------------

希望大家多多關注

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 對於大數據的理解面試：談談你對大數據的理解 DT大數據夢工廠免費實戰大數據視頻全集的理解深入理解大數據架構之——事務及其ACID特性深入理解大數據架構之——Lambda架構機器理解大數據秘密：聚類算法深度剖析大數據之presto 大數據什么是 ETL 我對大數據的認識大數據技術