Hadoop是什么？

Hadoop是一個開發和運行處理大規模數據的軟件平台,是Appach的一個用Java語言實現開源軟件框架，實現在大量計算機組成的集群中對海量數據進行分布式計算.

Hadoop框架中最核心設計就是：HDFS和MapReduce.HDFS提供了海量數據的存儲,MapReduce提供了對數據的計算.

Hadoop的優點

Hadoop是一個能夠對大量數據進行分布式處理的軟件框架。 Hadoop 以一種可靠、高效、可伸縮的方式進行數據處理。

Hadoop是可靠的，因為它假設計算元素和存儲會失敗，因此它維護多個工作數據副本，確保能夠針對失敗的節點重新分布處理。
Hadoop是高效的，因為它以並行的方式工作，通過並行處理加快處理速度。
Hadoop是可伸縮的，能夠處理 PB 級數據。
此外，Hadoop 依賴於社區服務，因此它的成本比較低，任何人都可以使用。

Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平台。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點：

高可靠性：Hadoop按位存儲和處理數據的能力值得人們信賴。
高擴展性：Hadoop是在可用的計算機集簇間分配數據並完成計算任務的，這些集簇可以方便地擴展到數以千計的節點中
高效性：Hadoop能夠在節點之間動態地移動數據，並保證各個節點的動態平衡，因此處理速度非常快。
高容錯性：Hadoop能夠自動保存數據的多個副本，並且能夠自動將失敗的任務重新分配。
低成本：與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比，hadoop是開源的，項目的軟件成本因此會大大降低。

Hadoop核心架構

Hadoop 由許多元素構成。其最底部是 Hadoop Distributed File System（HDFS），它存儲 Hadoop 集群中所有存儲節點上的文件。HDFS的上一層是MapReduce 引擎，該引擎由 JobTrackers 和 TaskTrackers 組成。通過對Hadoop分布式計算平台最核心的分布式文件系統HDFS、MapReduce處理過程，以及數據倉庫工具Hive和分布式數據庫Hbase的介紹，基本涵蓋了Hadoop分布式平台的所有技術核心。

HDFS

對外部客戶機而言，HDFS就像一個傳統的分級文件系統。可以創建、刪除、移動或重命名文件，等等。但是 HDFS 的架構是基於一組特定的節點構建的（參見圖 1），這是由它自身的特點決定的。這些節點包括 NameNode（僅一個），它在 HDFS 內部提供元數據服務；DataNode，它為 HDFS 提供存儲塊。由於僅存在一個 NameNode，因此這是 HDFS 的一個缺點（單點失敗）。

存儲在 HDFS 中的文件被分成塊，然后將這些塊復制到多個計算機中（DataNode）。這與傳統的 RAID 架構大不相同。塊的大小（通常為 64MB）和復制的塊數量在創建文件時由客戶機決定。NameNode 可以控制所有文件操作。HDFS 內部的所有通信都基於標准的 TCP/IP 協議。

NameNode

NameNode 是一個通常在 HDFS 實例中的單獨機器上運行的軟件。它負責管理文件系統名稱空間和控制外部客戶機的訪問。NameNode 決定是否將文件映射到 DataNode 上的復制塊上。對於最常見的 3 個復制塊，第一個復制塊存儲在同一機架的不同節點上，最后一個復制塊存儲在不同機架的某個節點上。注意，這里需要您了解集群架構。

實際的 I/O事務並沒有經過 NameNode，只有表示 DataNode 和塊的文件映射的元數據經過 NameNode。當外部客戶機發送請求要求創建文件時，NameNode 會以塊標識和該塊的第一個副本的 DataNode IP 地址作為響應。這個 NameNode 還會通知其他將要接收該塊的副本的 DataNode。

NameNode 在一個稱為 FsImage 的文件中存儲所有關於文件系統名稱空間的信息。這個文件和一個包含所有事務的記錄文件（這里是 EditLog）將存儲在 NameNode 的本地文件系統上。FsImage 和 EditLog 文件也需要復制副本，以防文件損壞或 NameNode 系統丟失。

NameNode本身不可避免地具有SPOF（Single Point Of Failure）單點失效的風險，主備模式並不能解決這個問題，通過Hadoop Non-stop namenode才能實現100% uptime可用時間。

DataNode

DataNode 也是一個通常在 HDFS實例中的單獨機器上運行的軟件。Hadoop 集群包含一個 NameNode 和大量 DataNode。DataNode 通常以機架的形式組織，機架通過一個交換機將所有系統連接起來。Hadoop 的一個假設是：機架內部節點之間的傳輸速度快於機架間節點的傳輸速度。

DataNode 響應來自 HDFS 客戶機的讀寫請求。它們還響應來自 NameNode 的創建、刪除和復制塊的命令。NameNode 依賴來自每個 DataNode 的定期心跳（heartbeat）消息。每條消息都包含一個塊報告，NameNode 可以根據這個報告驗證塊映射和其他文件系統元數據。如果 DataNode 不能發送心跳消息，NameNode 將采取修復措施，重新復制在該節點上丟失的塊。

MapReduce

在Hadoop中，一個MapReduce作業通常會把輸入的數據集切分為若干獨立的數據塊，由Map任務以完全並行的方式去處理它們。框架會對Map的輸出先進行排序，然后把結果輸入給Reduce任務。通常作業的輸入和輸出都會被存儲在文件系統中，整個框架負責任務的調度和監控，以及重新執行已經關閉的任務。

　　通常，MapReduce框架和分布式文件系統是運行在一組相同的節點上，也就是說，計算節點和存儲節點通常都是在一起的。這種配置允許框架在那些已經存好數據的節點上高效地調度任務，這可以使得整個集群的網絡帶寬被非常高效地利用。

JobTracker

JobTracker是一個master服務，軟件啟動之后JobTracker接收Job，負責調度Job的每一個子任務task運行於TaskTracker上，並監控它們，如果發現有失敗的task就重新運行它。一般情況應該把JobTracker部署在單獨的機器上。

TaskTracker

TaskTracker是運行在多個節點上的slaver服務。TaskTracker主動與JobTracker通信，接收作業，並負責直接執行每一個任務，而且TaskTracker都需要運行在HDFS的DataNode上。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [Hadoop] Hadoop學習筆記之Hadoop基礎 Hadoop學習4--安裝Hadoop Hadoop學習之旅一：Hello Hadoop hadoop學習（二）hadoop集群的啟動 Hadoop Hadoop的SecondaryNameNode的作用是什么？《openstack 和hadoop的區別是什么？》 Hadoop技術之Hadoop HA 機制學習 Hadoop學習筆記(6) ——重新認識Hadoop Hadoop學習之路（二）Hadoop發展背景