hadoop(1)---hadoop的介紹和幾種模式。

本文轉載自查看原文 2018-08-13 16:27 1106

一、什么是hadoop？

Hadoop軟件庫是一個開源框架，允許使用簡單的編程模型跨計算機集群分布式處理大型數據集。它旨在從單個服務器擴展到數千台計算機，每台計算機都提供本地計算和存儲。庫本身不是依靠硬件來提供高可用性，而是設計用於檢測和處理應用程序層的故障，從而在計算機集群之上提供高可用性服務，每個計算機都可能容易出現故障。是大數據技術的基礎。

hadoop所包含的模塊（從官網借鑒的）：

♥ hadoop分布式文件系統（HDFS）：一種分布式文件系統，能夠提供高可靠、高可用、可擴展以及對應用程序數據的高吞吐量訪問。

♥ yarn ：作業調度和資源管理的框架。

♥ MapReduce ：基於yarn框架，用於並行計算處理大型數據集，是一種計算框架。

♥ ambari ：基於Web的工具，用於配置，管理和監控Apache Hadoop集群，包括對Hadoop HDFS，Hadoop MapReduce，Hive，HCatalog，HBase，ZooKeeper，Oozie，Pig和Sqoop的支持。Ambari還提供了一個用於查看群集運行狀況的儀表板，例如熱圖，以及可視化查看MapReduce，Pig和Hive應用程序的功能，以及以用戶友好的方式診斷其性能特征的功能。

♥ avro ：數據序列化系統。

♥ cassandra：可擴展的多主數據庫，沒有單點故障。

♥ hbase：可擴展的分布式數據庫，支持大型表的結構化數據存儲。

♥ hive：一種數據倉庫基礎架構，提供數據匯總和即席查詢。

♥ pig：用於並行計算的高級數據流語言和執行框架。

♥ spark：用於Hadoop數據的快速通用計算引擎。Spark提供了一種簡單而富有表現力的編程模型，支持廣泛的應用程序，包括ETL，機器學習，流處理和圖形計算。

♥ zookeeper：用於分布式應用程序的高性能協調服務。

二、hadoop的四種模式。

1、本地模式：

本地模式就是解壓源碼包，不需要做任何的配置。通常用於開發調試，或者感受hadoop。

2、偽分布模式：

在學習當中一般都是使用這種模式，偽分布模式就是在一台機器的多個進程運行多個模塊。雖然每一個模塊都有相應的進程，但是卻還是運行在同一個系統里面。所以叫偽分布式。

3、完全分布式：

這種模式才是工作當中所用的模式，hadoop運行在多台機器上面，我們稱之為hadoop集群。

4、HA：

在實際的工作當中，對於hadoop完全分布式來說，並不真正的可靠，因為hadoop完全分布式集群會有單點故障（namenode單點故障、yarn單點故障），所以一般都會對這個集群做HA，一般都是做namenode和yarn的高可用。

下一章會對這幾種模式的安裝作介紹。

*** 本博客只是用來對自己所學知識的記錄和總結，同時也希望能夠幫助他人，可能寫的並不好，還請見諒。***

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 幾種常用的設計模式介紹 hadoop的目錄結構介紹 Hadoop以及組件介紹 Hadoop & Spark 介紹 HADOOP背景介紹 Hadoop日記Day1---Hadoop介紹 docker 網絡的幾種模式單例模式，你會寫幾種？ Nginx代理的幾種模式幾種單例模式解析