Hadoop大數據平台構建


基礎:linux常用命令、Java編程基礎
大數據:科學數據、金融數據、物聯網數據、交通數據、社交網絡數據、零售數據等等。

Hadoop: 一個開源的分布式存儲、分布式計算平台.(基於Apache)


Hadoop的組成:
  HDFS:分布式文件系統,存儲海量的數據。
  MapReduce:並行處理框架,實現任務分解和調度。

Hadoop的用處:

  搭建大型數據倉庫,PB級數據的存儲、處理、分析、統計等業務。

  比如搜索引擎、網頁的數據處理,各種商業智能、風險評估、預警,還有一些日志的分析、數據挖掘的任務。

Hadoop優勢:高擴展、低成本、成熟的生態圈(Hadoop Ecosystem Map)

 

Hadoop開源工具:

Hive:將SQL語句轉換成一個hadoop任務去執行,降低了使用Hadoop的門檻。
HBase:存儲結構化數據的分布式數據庫,habase提供數據的隨機讀寫和實時訪問,實現 對表數據的讀寫功能。
zookeeper:就像動物管理員一樣,監控hadoop集群里面每個節點的狀態,管理整個集群 的配置,維護節點針之間數據的一次性等等。

hadoop的版本盡量選穩定版本,即較老版本。

===============================================

Hadoop的安裝與配置:
1)在Linux中安裝JDK,並設置環境變量
   安裝jdk: >> sudo apt-get install openjdk-7-jdk
   設置環境變量:

  >> vim  /etc/profile

  >> :wq

2)下載Hadoop,並設置Hadoop環境變量
   下載hadoop解壓縮:

>> cd /opt/hadoop-1.2.1/

>> ls

>> vim /etc/profile

>>:wq


3)修改4個配置文件
(a)修改hadoop-env.sh,設置JAVA_HOME
(b)修改core-site.xml,設置hadoop.tmp.dir, dfs.name.dir, fs.default.name
(c)修改mapred-site.xml, 設置mapred.job.tracker
(d)修改hdfs-site.xml,設置dfs.data.dir

>> cd conf
>> ls

>> vim mapred-site.xml

>> :wq

>> vim core-site.xml

第一部分

第二部分


>> :wq

>> vim hdfs-site.xml


>> :wq

>> vim hadoop-env.sh


>> :wq

# hadoop格式化
>> hadoop namenode -format

# hadoop啟動
>> start-all.sh

# 通過jps命令查看當前運行進程
>> jps

看見以下進程即說明hadoop安裝成功




免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM