Hadoop大數據平台構建

本文轉載自查看原文 2016-01-15 11:03 3762

基礎：linux常用命令、Java編程基礎
大數據：科學數據、金融數據、物聯網數據、交通數據、社交網絡數據、零售數據等等。

Hadoop: 一個開源的分布式存儲、分布式計算平台.（基於Apache）

Hadoop的組成：
　　HDFS:分布式文件系統，存儲海量的數據。
　　MapReduce:並行處理框架，實現任務分解和調度。

Hadoop的用處：

　　搭建大型數據倉庫，PB級數據的存儲、處理、分析、統計等業務。

　　比如搜索引擎、網頁的數據處理，各種商業智能、風險評估、預警，還有一些日志的分析、數據挖掘的任務。

Hadoop優勢：高擴展、低成本、成熟的生態圈(Hadoop Ecosystem Map)

Hadoop開源工具：

Hive：將SQL語句轉換成一個hadoop任務去執行，降低了使用Hadoop的門檻。
HBase:存儲結構化數據的分布式數據庫，habase提供數據的隨機讀寫和實時訪問，實現對表數據的讀寫功能。
zookeeper:就像動物管理員一樣，監控hadoop集群里面每個節點的狀態，管理整個集群的配置，維護節點針之間數據的一次性等等。

hadoop的版本盡量選穩定版本，即較老版本。

===============================================

Hadoop的安裝與配置：
1）在Linux中安裝JDK，並設置環境變量
　 安裝jdk: >> sudo apt-get install openjdk-7-jdk
　 設置環境變量：

　　>> vim /etc/profile

　　>> :wq

2)下載Hadoop,並設置Hadoop環境變量
下載hadoop解壓縮:

>> cd /opt/hadoop-1.2.1/

>> ls

>> vim /etc/profile

>>:wq

3）修改4個配置文件
（a）修改hadoop-env.sh,設置JAVA_HOME
（b）修改core-site.xml,設置hadoop.tmp.dir, dfs.name.dir, fs.default.name
（c）修改mapred-site.xml, 設置mapred.job.tracker
（d）修改hdfs-site.xml,設置dfs.data.dir

>> cd conf
>> ls