相關內容簡體繁體

大數據生態hadoop(一)：起源

本文轉載自查看原文 2019-05-06 20:50 1067 Hadoop

What is Hadoop

官方文檔
The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.
釋義
Apache™Hadoop®項目開發用於可靠、可伸縮的分布式計算的開源軟件。
廣義
廣義上來說，Hadoop通常是指一個更廣泛的概念——Hadoop生態圈。

Hadoop起源

Lucene框架是Doug Cutting開創的開源軟件，用Java書寫代碼，實現與Google類似的全文搜索功能，它提供了全文檢索引擎的架構，包括完整的查詢引擎和索引引擎。
2001年年底Lucene成為Apache基金會的一個子項目。
對於海量數據的場景，Lucene面對與Google同樣的困難，存儲數據困難，檢索速度慢。
可以說Google是Hadoop的思想之源(Google在大數據方面的三篇論文)

# Google三篇論文
GFS --->HDFS
Map-Reduce --->MR
BigTable --->HBase

2003-2004年，Google公開了部分GFS和MapReduce思想的細節，以此為基礎Doug Cutting等人用了2年業余時間實現了DFS和MapReduce機制，使Nutch性能飆升。
2005 年Hadoop 作為 Lucene的子項目 Nutch的一部分正式引入Apache基金會。
2006 年 3 月份，Map-Reduce和Nutch Distributed File System (NDFS) 分別被納入到 Hadoop 項目中，Hadoop就此正式誕生，標志着大數據時代來臨，而名字來源於Doug Cutting兒子的玩具大象。

Hadoop三大發行版本

Apache Hadoop
版本最原始（最基礎）的版本，對於入門學習最好。
Cloudera Hadoop
在大型互聯網企業中用的較多。
Hortonworks Hadoop
文檔完善、已經被CDH收購

Hadoop優勢

高可靠性
Hadoop底層維護多個數據副本，所以即使Hadoop某個計算元素或存儲出現故障，也不會導致數據的丟失。
高擴展性
在集群間分配任務數據，可方便的擴展數以千計的節點。
高效性
在MapReduce的思想下，Hadoop是並行工作的，以加快任務處理速度。
高容錯性
能夠自動將失敗的任務重新分配。

Hadoop組成

HDFS
Hadoop分布式文件系統(HDFS)是指被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統（Distributed File System）
MapRedurce
MapReduce是一種編程模型，用於大規模數據集（大於1TB）的並行運算。概念"Map（映射）"和"Reduce（歸約）"，是它們的主要思想，都是從函數式編程語言里借來的，還有從矢量編程語言里借來的特性。
Yarn
Apache Hadoop YARN （Yet Another Resource Negotiator，另一種資源協調者）是一種新的 Hadoop 資源管理器，它是一個通用資源管理系統，可為上層應用提供統一的資源管理和調度，它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處。

應用場景

商品廣告推薦
保險
物流
旅游
...

Hadoop生態架構圖

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 大數據筆記（一）——Hadoop的起源與背景知識大數據Hadoop生態圈：Pig和Hive 大數據Hadoop生態系統介紹大數據Hadoop生態圈介紹大數據技術之_03_Hadoop學習_01_入門_大數據概論+從Hadoop框架討論大數據生態+Hadoop運行環境搭建（開發重點） Hadoop專業解決方案-第1章大數據和Hadoop生態圈大數據技術Hadoop入門理論系列之一----hadoop生態圈介紹基於Hadoop生態SparkStreaming的大數據實時流處理平台的搭建阿里巴巴飛天大數據架構體系與Hadoop生態系統 hadoop--大數據生態圈中最基礎、最重要的組件

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM