Hadoop系列之(三):使用Cloudera部署,管理Hadoop集群


1. Cloudera介紹

Hadoop是一個開源項目,Cloudera對Hadoop進行了商業化,簡化了安裝過程,並對hadoop做了一些封裝。

 

根據使用的需要,Hadoop集群要安裝很多的組件,一個一個安裝配置起來比較麻煩,還要考慮HA,監控等。

使用Cloudera可以很簡單的部署集群,安裝需要的組件,並且可以監控和管理集群。

 

CDH是Cloudera公司的發行版,包含Hadoop,Spark,Hive,Hbase和一些工具等。

Cloudera有兩個版本:

Cloudera Express 版本是免費的
Cloudera Enterprise (60天試用期)需要購買注冊碼

2. 安裝Cloudrea  Manager,部署Hadoop集群

2.1 安裝方法

先安裝Cloudrea  Manager,再通過Cloudrea  Manager在節點上安裝Cloudrea  Manager客戶端,CDH,管理工具。

 

官方文檔:

https://www.cloudera.com/documentation/manager/5-1-x.html

環境需求:

1. 關閉selinux

2. 各節點可以SSH登陸

3. 在/etc/hosts中添加各節點的主機名

 

2.2 安裝Cloudrea  Manager

可以通過官方的一鍵安裝包,也可以通過yum或rpm安裝。

下面介紹用官方的一鍵安裝包安裝。

 

本次安裝環境為CnetOS 7,在3台機器上進行安裝

test165 (cloudera manager server)

test166 (cloudera manager agent)

test167 (cloudera manager agent)

2.2.1 下載一鍵安裝包

http://archive.cloudera.com/cm5/installer/latest/

下載最新版: cloudera-manager-installer.bin

2.2.2 安裝cloudera manager

在test165上安裝cloudera manager server,啟動安裝向導

# chmod a+x cloudera-manager-installer.bin
# ./cloudera-manager-installer.bin

出現下面畫面

 

一路選擇< Next > 和 < Yes >,開始安裝。

需要下載JAVA和Cloudrea  Manager,共600多MB,根據網絡情況,會花一些時間。

 

出現下面頁面,安裝完成。

 

安裝完成后,訪問Cloudrea  Manager的頁面,用戶名密碼都是admin

http://IP或主機名:7180/

2.2.3 安裝cloudera manager agent

登錄Cloudrea  Manager頁面,選擇要安裝的版本,本次安裝的是Cloudera Express

 

選擇要安裝CDH的主機,用主機名或IP搜索,本次是在三個節點上安裝CDH

 

選擇使用Parcel安裝,選擇CDH版本

 

選擇安裝JDK

 

提供SSH登錄信息

 

開始安裝JDK和cloudera manager agent

 

如果安裝過程中,下載安裝jdk 或 cloudera-manager-agent失敗,可以在節點上手動安裝,然后再在Cloudrea  Manager上繼續安裝

# yum -y install jdk
# yum -y install oracle-j2sdk1.7
# yum -y install cloudera-manager-agent

 

下載Parcel並分配Parcel到各節點

 

Parcel包1.5G左右,需要一段時間,為了提高安裝速度,可以先把包下載到Cloudrea  Manager本地,配置本地源

 

parcel下載地址:

http://archive.cloudera.com/cdh5/parcels/5.5.1/

 

將下面文件拷貝到/opt/cloudera/parcel-repo/文件夾下

CDH-5.5.1-1.cdh5.5.1.p0.11-el7.parcel

CDH-5.5.1-1.cdh5.5.1.p0.11-el7.parcel.sha

manifest.json

 

安裝完成后,點繼續,到檢查結果的頁面

 

檢查主機正確性時出現 “Cloudera 建議將 /proc/sys/vm/swappiness 設置為 0。當前設置為 30。” 的警告,進行如下設定

# vi /etc/sysctl.conf
vm.swappiness = 0
# sysctl –p

 

檢查主機正確性時出現 “已啟用“透明大頁面”,它可能會導致重大的性能問題。” 的警告,進行如下設定

echo never > /sys/kernel/mm/transparent_hugepage/enabled
echo never > /sys/kernel/mm/transparent_hugepage/defrag

# vi /etc/rc.local
echo never > /sys/kernel/mm/transparent_hugepage/enabled
echo never > /sys/kernel/mm/transparent_hugepage/defrag

 

2.3 安裝集群,包括Hadoop,YARN,Hive等

檢查主機正確性后,點擊完成,進入集群配置

選擇要安裝的服務,可以選擇組合或自定義

 

配置各節點間如何分配

 

注意: HDFS的Data Node 最少3個。

 

測試數據庫連接

 

開始安裝

 

3. 確認,測試

確認集群狀態正常,動作正常

 

1. 在集群頁面確認,所有服務狀態正常

 

2. 在主機頁面確認,各節點的Heartbeat狀態正常,並且時間小於15秒

 

3. 運行任務進行測試

登陸到集群中任意一台主機,執行下面任務(用Hadoop計算PI值,圓周率)

后面2個數字參數的含義: 10指的是要運行10次map任務,10000指的是每個map任務,要投擲多少次,2個參數的乘積就是總的投擲次數。 

# sudo -u hdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 10 10000

 

執行結果如下:

 

任務的執行情況可以在YARN頁面上進行確認

群集 -> Cluster 1 -> YARN -> 應用程序

 

4. 其他

在Cloudrea  Manager頁面上,可以向集群中添加/刪除主機,添加服務到集群等。

 

Cloudrea  Manager頁面開啟了google-analytics,因為從國內訪問很慢,可以關閉google-analytics

管理 -> 設置 -> 其他 -> 允許使用情況數據收集  不選

 

5. 后記

工欲善其事必先利其器,管理Hadoop 集群,Cloudrea 是個不錯的選擇。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM