
基礎:linux常用命令、Java編程基礎
大數據:科學數據、金融數據、物聯網數據、交通數據、社交網絡數據、零售數據等等。
Hadoop: 一個開源的分布式存儲、分布式計算平台.(基於Apache)
Hadoop的組成:
HDFS:分布式文件系統,存儲海量的數據。
MapReduce:並行處理框架,實現任務分解和調度。
Hadoop的用處:
搭建大型數據倉庫,PB級數據的存儲、處理、分析、統計等業務。
比如搜索引擎、網頁的數據處理,各種商業智能、風險評估、預警,還有一些日志的分析、數據挖掘的任務。
Hadoop優勢:高擴展、低成本、成熟的生態圈(Hadoop Ecosystem Map)
Hadoop開源工具:
Hive:將SQL語句轉換成一個hadoop任務去執行,降低了使用Hadoop的門檻。
HBase:存儲結構化數據的分布式數據庫,habase提供數據的隨機讀寫和實時訪問,實現 對表數據的讀寫功能。
zookeeper:就像動物管理員一樣,監控hadoop集群里面每個節點的狀態,管理整個集群 的配置,維護節點針之間數據的一次性等等。
hadoop的版本盡量選穩定版本,即較老版本。
===============================================
Hadoop的安裝與配置:
1)在Linux中安裝JDK,並設置環境變量
安裝jdk: >> sudo apt-get install openjdk-7-jdk
設置環境變量:
>> vim /etc/profile

>> :wq
2)下載Hadoop,並設置Hadoop環境變量
下載hadoop解壓縮:
>> cd /opt/hadoop-1.2.1/
>> ls
>> vim /etc/profile

>>:wq
3)修改4個配置文件
(a)修改hadoop-env.sh,設置JAVA_HOME
(b)修改core-site.xml,設置hadoop.tmp.dir, dfs.name.dir, fs.default.name
(c)修改mapred-site.xml, 設置mapred.job.tracker
(d)修改hdfs-site.xml,設置dfs.data.dir
>> cd conf
>> ls

>> vim mapred-site.xml

>> :wq
>> vim core-site.xml
第一部分

第二部分

>> :wq
>> vim hdfs-site.xml

>> :wq
>> vim hadoop-env.sh

>> :wq
# hadoop格式化
>> hadoop namenode -format
# hadoop啟動
>> start-all.sh
# 通過jps命令查看當前運行進程
>> jps
看見以下進程即說明hadoop安裝成功

