為什么使用CDH版本?
這個主要考慮到兼容性。
下載地址:http://archive.cloudera.com/cdh5/cdh/5
最新的CDH公司的hadoop版本:
一:准備工作
1.步驟
1)hadoop
-》下載解壓
-》修改配置文件
-》hadoop-env
JAVA_HOME
-》core-site
fs.defaultFS
hadoop.tmp.dir
-》hdfs-site
dfs.replication
permission
-》mapred-site
mapreduce.frame.work
historyserver
-》yarn-site
mapreduce-》shuffle
resourcemanager地址:0.0.0.0
日志聚集
-》yarn-env
JAVA_HOME
-》slaves
datanode/nodemanager hostname
-》格式化
bin/hdfs namenode -formatf
-》啟動
2)hive
-》下載解壓
-》創建數據倉庫
/user/hive/warehouse
-》修改配置
-》hive-env
HADOOP_HOME
HIVE_CONF_DIR
-》log4j
-》日志目錄
-》hive-site
-》連接mysql
-》數據庫地址
-》連接驅動
-》用戶名
-》密碼
-》顯示當前數據庫
-》顯示表頭
-》把mysql連接驅動放入lib
-》啟動
3)sqoop
-》解壓
-》修改*env.sh
-》加載驅動
-》驅動
二:安裝Hadoop
1.新建目錄cdh-5.3.6,並修改權限
2.解壓
3.修改/etc/profile
4.配置*env.sh中的JAVA_HOME
5.配置core-site.xml環境
6.配置hdfs-site.xml環境
7.配置mapred-site.xml
8.配置slaves
9.配置yarn-site.xml
10.格式化
11.啟動
三:hive
1.解壓
2.在HDFS上創建數據倉庫並修改權限
在hadoop主目錄下創建並修改權限。
3.啟用一些配置
4.配置env.sh
5.log4j的配置
6.hive-site.xml的配置
7.加載驅動
8.啟動hive之前mysql的內容
9.啟動
10.出現新的數據庫
四:sqoop
1.概述
用於關系型數據庫與hadoop之間的數據轉換。
底層是mapreduce模板,通過不同的參數,封裝打包成jar,提交給yarn。
導入與導出是基於hdfs而言。
2.解壓到cdh-5.3.6
3.拷貝相關的配置文件
4.配置sqoop.env.sh
5.加載驅動
6.簡單使用