HADOOP背景介紹

本文轉載自查看原文 2017-06-17 13:55 1919 Hadoop

1. HADOOP背景介紹

1.1 什么是HADOOP

1. HADOOP是apache旗下的一套開源軟件平台

2. HADOOP提供的功能：利用服務器集群，根據用戶的自定義業務邏輯，對海量數據進行分布式處理

3. HADOOP的核心組件有

A. HDFS（分布式文件系統）

B. YARN（運算資源調度系統）

C. MAPREDUCE（分布式運算編程框架）

4. 廣義上來說，HADOOP通常是指一個更廣泛的概念——HADOOP生態圈

1.2 HADOOP產生背景

1. HADOOP最早起源於Nutch。Nutch的設計目標是構建一個大型的全網搜索引擎，包括網頁抓取、索引、查詢等功能，但隨着抓取網頁數量的增加，遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。

2. 2003年、2004年谷歌發表的兩篇論文為該問題提供了可行的解決方案。

——分布式文件系統（GFS），可用於處理海量網頁的存儲

——分布式計算框架MAPREDUCE，可用於處理海量網頁的索引計算問題。

3. Nutch的開發人員完成了相應的開源實現HDFS和MAPREDUCE，並從Nutch中剝離成為獨立項目HADOOP，到2008年1月，HADOOP成為Apache頂級項目，迎來了它的快速發展期。

1.3 HADOOP在大數據、雲計算中的位置和關系

1. 雲計算是分布式計算、並行計算、網格計算、多核計算、網絡存儲、虛擬化、負載均衡等傳統計算機技術和互聯網技術融合發展的產物。借助IaaS(基礎設施即服務)、PaaS(平台即服務)、SaaS（軟件即服務）等業務模式，把強大的計算能力提供給終端用戶。

2. 現階段，雲計算的兩大底層支撐技術為“虛擬化”和“大數據技術”

3. 而HADOOP則是雲計算的PaaS層的解決方案之一，並不等同於PaaS，更不等同於雲計算本身。

1.4 國內外HADOOP應用案例介紹

1、HADOOP應用於數據服務基礎平台建設

2/HADOOP用於用戶畫像

3、HADOOP用於網站點擊流日志數據挖掘

1.5 國內HADOOP的就業情況分析

1、 HADOOP就業整體情況

A. 大數據產業已納入國家十三五規划

B. 各大城市都在進行智慧城市項目建設，而智慧城市的根基就是大數據綜合平台

C. 互聯網時代數據的種類，增長都呈現爆發式增長，各行業對數據的價值日益重視

D. 相對於傳統JAVAEE技術領域來說，大數據領域的人才相對稀缺

E. 隨着現代社會的發展，數據處理和數據挖掘的重要性只會增不會減，因此，大數據技術是一個尚在蓬勃發展且具有長遠前景的領域

2、 HADOOP就業職位要求

大數據是個復合專業，包括應用開發、軟件平台、算法、數據挖掘等，因此，大數據技術領域的就業選擇是多樣的，但就HADOOP而言，通常都需要具備以下技能或知識：

A. HADOOP分布式集群的平台搭建

B. HADOOP分布式文件系統HDFS的原理理解及使用

C. HADOOP分布式運算框架MAPREDUCE的原理理解及編程

D. Hive數據倉庫工具的熟練應用

E. Flume、sqoop、oozie等輔助工具的熟練使用

F. Shell/python等腳本語言的開發能力

3、 HADOOP相關職位的薪資水平

大數據技術或具體到HADOOP的就業需求目前主要集中在北上廣深一線城市，薪資待遇普遍高於傳統JAVAEE開發人員，以北京為例：

1.6 HADOOP生態圈以及各組成部分的簡介

各組件簡介

重點組件：

HDFS：分布式文件系統

MAPREDUCE：分布式運算程序開發框架

HIVE：基於大數據技術（文件系統+運算框架）的SQL數據倉庫工具

HBASE：基於HADOOP的分布式海量數據庫

ZOOKEEPER：分布式協調服務基礎組件

Mahout：基於mapreduce/spark/flink等分布式運算框架的機器學習算法庫

Oozie：工作流調度框架

Sqoop：數據導入導出工具

Flume：日志數據采集框架

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hadoop(1)---hadoop的介紹和幾種模式。 Apache Hadoop YARN：背景及概述介紹Dubbo背景 ClouderaManager的背景和介紹 hadoop的目錄結構介紹 Hadoop以及組件介紹 Hadoop & Spark 介紹 Hadoop日記Day1---Hadoop介紹 css顏色介紹和背景設置 Cypress學習筆記1——背景介紹