從零自學Hadoop(01)：認識Hadoop

本文轉載自查看原文 2015-09-24 16:35 9505 01.Hadoop/ 從零自學Hadoop/ Linux/ 02.Linux/ 安裝/ Hadoop/ 自學

本文版權歸mephisto和博客園共有，歡迎轉載，但須保留此段聲明，並給出原文鏈接，謝謝合作。

文章是哥(mephisto)寫的，SourceLink

閱讀目錄

序
Hadoop
項目起源
優點
核心架構
開源實現
子項目
HDFS流程圖
系列索引

本文版權歸mephisto和博客園共有，歡迎轉載，但須保留此段聲明，並給出原文鏈接，謝謝合作。

文章是哥(mephisto)寫的，SourceLink

序

　　我是一個工作比較多年數的.net程序猿，最開始做過ERP，這幾年一直做監控、應急行業。從產品的體系架構到代碼編寫，通通參與。認識到作為一個完整的監控生態環境，對采集的數據的處理也很重要。采集的數據只有挖掘了才可能提供有價值的建議或利益輸出。認識到單獨的windows平台的不足，也想推廣多平台的混搭，但由於沒玩過Linux，還是有點前怕狼后怕虎的，怕力不從心。一個搞技術的怕一個事物的時候，他可能就沒法在這個事物上進步了，為了豐富自己的技術路線，決定從零自學Hadoop。確實難度比較大，但有了目標，一步步執行起來就是了。而且，不管結果怎么樣，還是可以從中學習到很多優秀平台的技術知識。能學到東西，我已經很滿足了。

　　下面的介紹，只是個搬運工，但也得給這個系列起個頭，大家勉強將就的看下吧。

Hadoop

　   Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。

      用戶可以在不了解分布式底層細節的情況下，開發分布式程序。充分利用集群的威力進行高速運算和存儲。

      Hadoop實現了一個分布式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性的特點，並且設計用來部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來訪問應用程序的數據，適合那些有着超大數據集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問（streaming access）文件系統中的數據。

      Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的數據提供了存儲，則MapReduce為海量的數據提供了計算。

項目起源

　　Hadoop由 Apache Software Foundation 公司於 2005 年秋天作為Lucene的子項目Nutch的一部分正式引入。它受到最先由 Google Lab 開發的 Map/Reduce 和 Google File System(GFS) 的啟發。

　　2006 年 3 月份，Map/Reduce 和 Nutch Distributed File System (NDFS) 分別被納入稱為 Hadoop 的項目中。

　　Hadoop原本來自於谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個應用程序分解為許多並行計算指令，跨大量的計算節點運行非常巨大的數據集。使用該框架的一個典型例子就是在網絡數據上運行的搜索算法。Hadoop最初只與網頁索引有關，迅速發展成為分析大數據的領先平台。

優點

　　Hadoop是一個能夠對大量數據進行分布式處理的軟件框架。 Hadoop 以一種可靠、高效、可伸縮的方式進行數據處理。

　　Hadoop 是可靠的，因為它假設計算元素和存儲會失敗，因此它維護多個工作數據副本，確保能夠針對失敗的節點重新分布處理。

　　Hadoop 是高效的，因為它以並行的方式工作，通過並行處理加快處理速度。

　　Hadoop 還是可伸縮的，能夠處理 PB 級數據。

　　此外，Hadoop 依賴於社區服務，因此它的成本比較低，任何人都可以使用。

　　Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平台。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點：

高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。

高擴展性。Hadoop是在可用的計算機集簇間分配數據並完成計算任務的，這些集簇可以方便地擴展到數以千計的節點中。

高效性。Hadoop能夠在節點之間動態地移動數據，並保證各個節點的動態平衡，因此處理速度非常快。

高容錯性。Hadoop能夠自動保存數據的多個副本，並且能夠自動將失敗的任務重新分配。

低成本。與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比，hadoop是開源的，項目的軟件成本因此會大大降低。

　　Hadoop帶有用Java語言編寫的框架，因此運行在 Linux 生產平台上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫，比如 C++。

　　hadoop大數據處理的意義

　　Hadoop得以在大數據處理應用中廣泛應用得益於其自身在數據提取、變形和加載(ETL)方面上的天然優勢。Hadoop的分布式架構，將大數據處理引擎盡可能的靠近存儲，對例如像ETL這樣的批處理操作相對合適，因為類似這樣操作的批處理結果可以直接走向存儲。Hadoop的MapReduce功能實現了將單個任務打碎，並將碎片任務(Map)發送到多個節點上，之后再以單個數據集的形式加載(Reduce)到數據倉庫里。

核心架構

　　Hadoop 由許多元素構成。其最底部是 Hadoop Distributed File System（HDFS），它存儲 Hadoop 集群中所有存儲節點上的文件。HDFS（對於本文）的上一層是MapReduce 引擎，該引擎由 JobTrackers 和 TaskTrackers 組成。通過對Hadoop分布式計算平台最核心的分布式文件系統HDFS、MapReduce處理過程，以及數據倉庫工具Hive和分布式數據庫Hbase的介紹，基本涵蓋了Hadoop分布式平台的所有技術核心。

HDFS

　　對外部客戶機而言，HDFS就像一個傳統的分級文件系統。可以創建、刪除、移動或重命名文件，等等。但是 HDFS 的架構是基於一組特定的節點構建的（參見圖 1），這是由它自身的特點決定的。這些節點包括 NameNode（僅一個），它在 HDFS 內部提供元數據服務；DataNode，它為 HDFS 提供存儲塊。由於僅存在一個 NameNode，因此這是 HDFS 的一個缺點（單點失敗）。

　　存儲在 HDFS 中的文件被分成塊，然后將這些塊復制到多個計算機中（DataNode）。這與傳統的 RAID 架構大不相同。塊的大小（通常為 64MB）和復制的塊數量在創建文件時由客戶機決定。NameNode 可以控制所有文件操作。HDFS 內部的所有通信都基於標准的 TCP/IP 協議。

NameNode

　　NameNode 是一個通常在 HDFS 實例中的單獨機器上運行的軟件。它負責管理文件系統名稱空間和控制外部客戶機的訪問。NameNode 決定是否將文件映射到 DataNode 上的復制塊上。對於最常見的 3 個復制塊，第一個復制塊存儲在同一機架的不同節點上，最后一個復制塊存儲在不同機架的某個節點上。注意，這里需要您了解集群架構。

　　實際的 I/O事務並沒有經過 NameNode，只有表示 DataNode 和塊的文件映射的元數據經過 NameNode。當外部客戶機發送請求要求創建文件時，NameNode 會以塊標識和該塊的第一個副本的 DataNode IP 地址作為響應。這個 NameNode 還會通知其他將要接收該塊的副本的 DataNode。

　　NameNode 在一個稱為 FsImage 的文件中存儲所有關於文件系統名稱空間的信息。這個文件和一個包含所有事務的記錄文件（這里是 EditLog）將存儲在 NameNode 的本地文件系統上。FsImage 和 EditLog 文件也需要復制副本，以防文件損壞或 NameNode 系統丟失。

　　NameNode本身不可避免地具有SPOF（Single Point Of Failure）單點失效的風險，主備模式並不能解決這個問題，通過Hadoop Non-stop namenode才能實現100% uptime可用時間。

DataNode

　　DataNode 也是一個通常在 HDFS實例中的單獨機器上運行的軟件。Hadoop 集群包含一個 NameNode 和大量 DataNode。DataNode 通常以機架的形式組織，機架通過一個交換機將所有系統連接起來。Hadoop 的一個假設是：機架內部節點之間的傳輸速度快於機架間節點的傳輸速度。

　　DataNode 響應來自 HDFS 客戶機的讀寫請求。它們還響應來自 NameNode 的創建、刪除和復制塊的命令。NameNode 依賴來自每個 DataNode 的定期心跳（heartbeat）消息。每條消息都包含一個塊報告，NameNode 可以根據這個報告驗證塊映射和其他文件系統元數據。如果 DataNode 不能發送心跳消息，NameNode 將采取修復措施，重新復制在該節點上丟失的塊。

開源實現

　　Hadoop是項目的總稱。主要是由HDFS和MapReduce組成。

　　HDFS是Google File System（GFS）的開源實現。

　　MapReduce是Google MapReduce的開源實現。

　　這個分布式框架很有創造性，而且有極大的擴展性，使得Google在系統吞吐量上有很大的競爭力。因此Apache基金會用Java實現了一個開源版本，支持Fedora、Ubuntu等Linux平台。雅虎和硅谷風險投資公司Benchmark Capital 聯合成立一家名為Hortonworks的新公司，接管被廣泛應用的數據分析軟件Hadoop的開發工作。

　　Hadoop實現了HDFS文件系統和MapRecue。用戶只要繼承MapReduceBase，提供分別實現Map和Reduce的兩個類，並注冊Job即可自動分布式運行。

子項目

　　Hadoop Common: 在0.20及以前的版本中，包含HDFS、MapReduce和其他項目公共內容，從0.21開始HDFS和MapReduce被分離為獨立的子項目，其余內容為Hadoop Common

　　HDFS: Hadoop分布式文件系統(Distributed File System) － HDFS (Hadoop Distributed File System)

　　MapReduce：並行計算框架，0.20前使用 org.apache.hadoop.mapred 舊接口，0.20版本開始引入org.apache.hadoop.mapreduce的新API

　　HBase: 類似Google BigTable的分布式NoSQL列數據庫。（HBase和Avro已經於2010年5月成為頂級 Apache 項目）

　　Hive：數據倉庫工具，由Facebook貢獻。

　　Zookeeper：分布式鎖設施，提供類似Google Chubby的功能，由Facebook貢獻。

　　Avro：新的數據序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機制。

　　Pig: 大數據分析平台，為用戶提供多種接口。

　　Ambari：Hadoop管理工具，可以快捷的監控、部署、管理集群。

　　Sqoop：於在HADOOP與傳統的數據庫間進行數據的傳遞。

HDFS流程圖

　　

---------------------------------------------------------------------------------------

系列索引

　　【源】從零自學Hadoop系列索引

本文版權歸mephisto和博客園共有，歡迎轉載，但須保留此段聲明，並給出原文鏈接，謝謝合作。

文章是哥(mephisto)寫的，SourceLink

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 從零自學Hadoop(11)：Hadoop命令上從零自學Hadoop系列索引從零自學Hadoop(05)：Ambari 從零自學Hadoop(12)：Hadoop命令中從零自學Hadoop(10)：Hadoop1.x與Hadoop2.x Hadoop學習筆記(6) ——重新認識Hadoop 從零自學Hadoop(06)：集群搭建從零自學Hadoop(03)：Linux准備上從零自學Hadoop(07)：Eclipse插件從零自學Hadoop(02)：環境准備