1. Cloudera介紹
Hadoop是一個開源項目,Cloudera對Hadoop進行了商業化,簡化了安裝過程,並對hadoop做了一些封裝。
根據使用的需要,Hadoop集群要安裝很多的組件,一個一個安裝配置起來比較麻煩,還要考慮HA,監控等。
使用Cloudera可以很簡單的部署集群,安裝需要的組件,並且可以監控和管理集群。
CDH是Cloudera公司的發行版,包含Hadoop,Spark,Hive,Hbase和一些工具等。
Cloudera有兩個版本:
Cloudera Express 版本是免費的
Cloudera Enterprise (60天試用期)需要購買注冊碼
2. 安裝Cloudrea Manager,部署Hadoop集群
2.1 安裝方法
先安裝Cloudrea Manager,再通過Cloudrea Manager在節點上安裝Cloudrea Manager客戶端,CDH,管理工具。
官方文檔:
https://www.cloudera.com/documentation/manager/5-1-x.html
環境需求:
1. 關閉selinux
2. 各節點可以SSH登陸
3. 在/etc/hosts中添加各節點的主機名
2.2 安裝Cloudrea Manager
可以通過官方的一鍵安裝包,也可以通過yum或rpm安裝。
下面介紹用官方的一鍵安裝包安裝。
本次安裝環境為CnetOS 7,在3台機器上進行安裝
test165 (cloudera manager server)
test166 (cloudera manager agent)
test167 (cloudera manager agent)
2.2.1 下載一鍵安裝包
http://archive.cloudera.com/cm5/installer/latest/
下載最新版: cloudera-manager-installer.bin
2.2.2 安裝cloudera manager
在test165上安裝cloudera manager server,啟動安裝向導
# chmod a+x cloudera-manager-installer.bin # ./cloudera-manager-installer.bin
出現下面畫面
一路選擇< Next > 和 < Yes >,開始安裝。
需要下載JAVA和Cloudrea Manager,共600多MB,根據網絡情況,會花一些時間。
出現下面頁面,安裝完成。
安裝完成后,訪問Cloudrea Manager的頁面,用戶名密碼都是admin
http://IP或主機名:7180/
2.2.3 安裝cloudera manager agent
登錄Cloudrea Manager頁面,選擇要安裝的版本,本次安裝的是Cloudera Express
選擇要安裝CDH的主機,用主機名或IP搜索,本次是在三個節點上安裝CDH
選擇使用Parcel安裝,選擇CDH版本
選擇安裝JDK
提供SSH登錄信息
開始安裝JDK和cloudera manager agent
如果安裝過程中,下載安裝jdk 或 cloudera-manager-agent失敗,可以在節點上手動安裝,然后再在Cloudrea Manager上繼續安裝
# yum -y install jdk # yum -y install oracle-j2sdk1.7 # yum -y install cloudera-manager-agent
下載Parcel並分配Parcel到各節點
Parcel包1.5G左右,需要一段時間,為了提高安裝速度,可以先把包下載到Cloudrea Manager本地,配置本地源
parcel下載地址:
http://archive.cloudera.com/cdh5/parcels/5.5.1/
將下面文件拷貝到/opt/cloudera/parcel-repo/文件夾下
CDH-5.5.1-1.cdh5.5.1.p0.11-el7.parcel
CDH-5.5.1-1.cdh5.5.1.p0.11-el7.parcel.sha
manifest.json
安裝完成后,點繼續,到檢查結果的頁面
檢查主機正確性時出現 “Cloudera 建議將 /proc/sys/vm/swappiness 設置為 0。當前設置為 30。” 的警告,進行如下設定
# vi /etc/sysctl.conf vm.swappiness = 0 # sysctl –p
檢查主機正確性時出現 “已啟用“透明大頁面”,它可能會導致重大的性能問題。” 的警告,進行如下設定
echo never > /sys/kernel/mm/transparent_hugepage/enabled echo never > /sys/kernel/mm/transparent_hugepage/defrag # vi /etc/rc.local echo never > /sys/kernel/mm/transparent_hugepage/enabled echo never > /sys/kernel/mm/transparent_hugepage/defrag
2.3 安裝集群,包括Hadoop,YARN,Hive等
檢查主機正確性后,點擊完成,進入集群配置
選擇要安裝的服務,可以選擇組合或自定義
配置各節點間如何分配
注意: HDFS的Data Node 最少3個。
測試數據庫連接
開始安裝
3. 確認,測試
確認集群狀態正常,動作正常
1. 在集群頁面確認,所有服務狀態正常
2. 在主機頁面確認,各節點的Heartbeat狀態正常,並且時間小於15秒
3. 運行任務進行測試
登陸到集群中任意一台主機,執行下面任務(用Hadoop計算PI值,圓周率)
后面2個數字參數的含義: 10指的是要運行10次map任務,10000指的是每個map任務,要投擲多少次,2個參數的乘積就是總的投擲次數。
# sudo -u hdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 10 10000
執行結果如下:
任務的執行情況可以在YARN頁面上進行確認
群集 -> Cluster 1 -> YARN -> 應用程序
4. 其他
在Cloudrea Manager頁面上,可以向集群中添加/刪除主機,添加服務到集群等。
Cloudrea Manager頁面開啟了google-analytics,因為從國內訪問很慢,可以關閉google-analytics
管理 -> 設置 -> 其他 -> 允許使用情況數據收集 不選
5. 后記
工欲善其事必先利其器,管理Hadoop 集群,Cloudrea 是個不錯的選擇。