hadoop(1)---hadoop的介紹和幾種模式。


一、什么是hadoop?

        Hadoop軟件庫是一個開源框架,允許使用簡單的編程模型跨計算機集群分布式處理大型數據集。它旨在從單個服務器擴展到數千台計算機,每台計算機都提供本地計算和存儲。庫本身不是依靠硬件來提供高可用性,而是設計用於檢測和處理應用程序層的故障,從而在計算機集群之上提供高可用性服務,每個計算機都可能容易出現故障。是大數據技術的基礎。

        hadoop所包含的模塊(從官網借鑒的):

♥  hadoop分布式文件系統(HDFS):一種分布式文件系統,能夠提供高可靠、高可用、可擴展以及對應用程序數據的高吞吐量訪問。

♥  yarn  :作業調度和資源管理的框架。

♥  MapReduce   :基於yarn框架,用於並行計算處理大型數據集,是一種計算框架。

♥   ambari   :基於Web的工具,用於配置,管理和監控Apache Hadoop集群,包括對Hadoop HDFS,Hadoop MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop的支持。Ambari還提供了一個用於查看群集運行狀況的儀表板,例如熱圖,以及可視化查看MapReduce,Pig和Hive應用程序的功能,以及以用戶友好的方式診斷其性能特征的功能。

♥    avro   :數據序列化系統。

♥   cassandra:可擴展的多主數據庫,沒有單點故障。

♥   hbase:可擴展的分布式數據庫,支持大型表的結構化數據存儲。

♥    hive:一種數據倉庫基礎架構,提供數據匯總和即席查詢。

♥   pig:用於並行計算的高級數據流語言和執行框架。

♥    spark:用於Hadoop數據的快速通用計算引擎。Spark提供了一種簡單而富有表現力的編程模型,支持廣泛的應用程序,包括ETL,機器學習,流處理和圖形計算。

♥    zookeeper:用於分布式應用程序的高性能協調服務。

二、hadoop的四種模式。

1、本地模式:

    本地模式就是解壓源碼包,不需要做任何的配置。通常用於開發調試,或者感受hadoop。

2、偽分布模式:

    在學習當中一般都是使用這種模式,偽分布模式就是在一台機器的多個進程運行多個模塊。雖然每一個模塊都有相應的進程,但是卻還是運行在同一個系統里面。所以叫偽分布式。

3、完全分布式:

    這種模式才是工作當中所用的模式,hadoop運行在多台機器上面,我們稱之為hadoop集群。

4、HA:

    在實際的工作當中,對於hadoop完全分布式來說,並不真正的可靠,因為hadoop完全分布式集群會有單點故障(namenode單點故障、yarn單點故障),所以一般都會對這個集群做HA,一般都是做namenode和yarn的高可用。

 

下一章會對這幾種模式的安裝作介紹。

 

 

***  本博客只是用來對自己所學知識的記錄和總結,同時也希望能夠幫助他人,可能寫的並不好,還請見諒。*** 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM