項目十八-Hadoop+Hbase分布式集群架構“完全篇”

本文轉載自查看原文 2019-04-01 15:32 575 目錄－Linux項目實戰

前言：本篇博客是博主踩過無數坑，反復查閱資料，一步步搭建，操作完成后整理的個人心得，分享給大家~~~

1、認識Hadoop和Hbase

1.1 hadoop簡單介紹

　　Hadoop是一個使用java編寫的Apache開放源代碼框架，它允許使用簡單的編程模型跨大型計算機的大型數據集進行分布式處理。Hadoop框架工作的應用程序可以在跨計算機群集提供分布式存儲和計算的環境中工作。Hadoop旨在從單一服務器擴展到數千台機器，每台機器都提供本地計算和存儲。

1.2 Hadoop架構

Hadoop框架包括以下四個模塊：

Hadoop Common：這些是其他Hadoop模塊所需的Java庫和實用程序。這些庫提供文件系統和操作系統級抽象，並包含啟動Hadoop所需的必要Java文件和腳本。
Hadoop YARN：這是作業調度和集群資源管理的框架。
Hadoop分布式文件系統（HDFS）：提供對應用程序數據的高吞吐量訪問的分布式文件系統。
Hadoop MapReduce：這是基於YARN的大型數據集並行處理系統。

我們可以使用下圖來描述Hadoop框架中可用的這四個組件。

　　自2012年以來，術語“Hadoop”通常不僅指向上述基本模塊，而且還指向可以安裝在Hadoop之上或之外的其他軟件包，例如Apache Pig，Apache Hive，Apache HBase，Apache火花等

1.3 Hadoop如何工作？

（1）階段1

　　用戶/應用程序可以通過指定以下項目向Hadoop（hadoop作業客戶端）提交所需的進程：

分布式文件系統中輸入和輸出文件的位置。
java類以jar文件的形式包含了map和reduce功能的實現。
通過設置作業特定的不同參數來進行作業配置。

（2）階段2

　　然后，Hadoop作業客戶端將作業（jar /可執行文件等）和配置提交給JobTracker，JobTracker負責將軟件/配置分發到從站，調度任務和監視它們，向作業客戶端提供狀態和診斷信息。

（3）階段3

　　不同節點上的TaskTrackers根據MapReduce實現執行任務，並將reduce函數的輸出存儲到文件系統的輸出文件中。

1.4 Hadoop的優點

Hadoop框架允許用戶快速編寫和測試分布式系統。它是高效的，它自動分配數據並在機器上工作，反過來利用CPU核心的底層並行性。
Hadoop不依賴硬件提供容錯和高可用性（FTHA），而是Hadoop庫本身被設計為檢測和處理應用層的故障。
服務器可以動態添加或從集群中刪除，Hadoop繼續運行而不會中斷。
Hadoop的另一大優點是，除了是開放源碼，它是所有平台兼容的，因為它是基於Java的。

1.5 HBase介紹

　　Hbase全稱為Hadoop Database，即hbase是hadoop的數據庫，是一個分布式的存儲系統。Hbase利用Hadoop的HDFS作為其文件存儲系統，利用Hadoop的MapReduce來處理Hbase中的海量數據。利用zookeeper作為其協調工具。

1.6 HBase體系架構

Client

包含訪問HBase的接口並維護cache來加快對HBase的訪問

Zookeeper

保證任何時候，集群中只有一個master
存貯所有Region的尋址入口。
實時監控Region server的上線和下線信息。並實時通知Master
存儲HBase的schema和table元數據

Master

為Region server分配region
負責Region server的負載均衡
發現失效的Region server並重新分配其上的region
管理用戶對table的增刪改操作

RegionServer

Region server維護region，處理對這些region的IO請求
Region server負責切分在運行過程中變得過大的region

HLog(WAL log)

HLog文件就是一個普通的Hadoop Sequence File，Sequence File 的Key是 HLogKey對象，HLogKey中記錄了寫入數據的歸屬信息，除了table和 region名字外，同時還包括sequence number和timestamp，timestamp是” 寫入時間”，sequence number的起始值為0，或者是最近一次存入文件系統中sequence number。
HLog SequeceFile的Value是HBase的KeyValue對象，即對應HFile中的 KeyValue

Region

HBase自動把表水平划分成多個區域(region)，每個region會保存一個表里面某段連續的數據；每個表一開始只有一個region，隨着數據不斷插入表，region不斷增大，當增大到一個閥值的時候，region就會等分會兩個新的region（裂變）；
當table中的行不斷增多，就會有越來越多的region。這樣一張完整的表被保存在多個Regionserver上。

Memstore 與 storefile

一個region由多個store組成，一個store對應一個CF（列族）
store包括位於內存中的memstore和位於磁盤的storefile寫操作先寫入 memstore，當memstore中的數據達到某個閾值，hregionserver會啟動 flashcache進程寫入storefile，每次寫入形成單獨的一個storefile
當storefile文件的數量增長到一定閾值后，系統會進行合並（minor、 major compaction），在合並過程中會進行版本合並和刪除工作（majar），形成更大的storefile。
當一個region所有storefile的大小和超過一定閾值后，會把當前的region 分割為兩個，並由hmaster分配到相應的regionserver服務器，實現負載均衡。
客戶端檢索數據，先在memstore找，找不到再找storefile
HRegion是HBase中分布式存儲和負載均衡的最小單元。最小單元就表示不同的HRegion可以分布在不同的HRegion server上。
HRegion由一個或者多個Store組成，每個store保存一個columns family。
每個Strore又由一個memStore和0至多個StoreFile組成。

2、安裝搭建hadoop

2.1 配置說明

本次集群搭建共三台機器，具體說明下:

主機名	IP	說明
hadoop01	192.168.10.101	DataNode、NodeManager、ResourceManager、NameNode
hadoop02	192.168.10.102	DataNode、NodeManager、SecondaryNameNode
hadoop03	192.168.10.106	DataNode、NodeManager

2.2 安裝前准備

2.2.1 機器配置說明

 
                $  
                cat  
                /etc/redhat-release 
               
                CentOS Linux release 7.3.1611 (Core)   
               
                $  
                uname  
                -r 
               
                3.10.0-514.el7.x86_64

注：本集群內所有進程均由clsn用戶啟動；要在集群所有服務器都進行操作。

2.2.2 關閉selinux、防火牆

 
                [along@hadoop01 ~]$ sestatus 
               
                SELinux status:                 disabled 
               
                [root@hadoop01 ~]$ iptables -F 
               
                [along@hadoop01 ~]$ systemctl status firewalld.service 
               
                ● firewalld.service - firewalld - dynamic firewall daemon 
               
                Loaded: loaded ( 
                /usr/lib/systemd/system/firewalld 
                .service; disabled; vendor preset: enabled) 
               
                Active: inactive (dead) 
               
                Docs:  
                man 
                :firewalld(1)

2.2.3 准備用戶

 
                $  
                id  
                along 
               
                uid=1000(along) gid=1000(along)  
                groups 
                =1000(along)

2.2.4 修改hosts文件，域名解析

 
                $  
                cat  
                /etc/hosts 
               
                127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4 
               
                ::1         localhost localhost.localdomain localhost6 localhost6.localdomain6 
               
                192.168.10.101 hadoop01 
               
                192.168.10.102 hadoop02 
               
                192.168.10.103 hadoop03

2.2.5 同步時間

 
                $ yum -y  
                install  
                ntpdate 
               
                $  
                sudo  
                ntpdate cn.pool.ntp.org

2.2.6 ssh互信配置

（1）生成密鑰對，一直回車即可

 
                [along@hadoop01 ~]$  
                ssh 
                -keygen

（2）保證每台服務器各自都有對方的公鑰

 
           
            
              
              
                ---along用戶 
               
 
                [along@hadoop01 ~]$  
                ssh 
                -copy- 
                id  
                -i ~/. 
                ssh 
                /id_rsa 
                .pub 127.0.0.1 
               
 
                [along@hadoop01 ~]$  
                ssh 
                -copy- 
                id  
                -i ~/. 
                ssh 
                /id_rsa 
                .pub hadoop01 
               
 
                [along@hadoop01 ~]$  
                ssh 
                -copy- 
                id  
                -i ~/. 
                ssh 
                /id_rsa 
                .pub hadoop02 
               
 
                [along@hadoop01 ~]$  
                ssh 
                -copy- 
                id  
                -i ~/. 
                ssh 
                /id_rsa 
                .pub hadoop03 
               
 
                ---root用戶 
               
 
                [along@hadoop01 ~]$  
                ssh 
                -copy- 
                id  
                -i ~/. 
                ssh 
                /id_rsa 
                .pub 127.0.0.1 
               
 
                [along@hadoop01 ~]$  
                ssh 
                -copy- 
                id  
                -i ~/. 
                ssh 
                /id_rsa 
                .pub hadoop01 
               
 
                [along@hadoop01 ~]$  
                ssh 
                -copy- 
                id  
                -i ~/. 
                ssh 
                /id_rsa 
                .pub hadoop02 
               
 
                [along@hadoop01 ~]$  
                ssh 
                -copy- 
                id  
                -i ~/. 
                ssh 
                /id_rsa 
                .pub hadoop03 
               
 
            
 
           
         

注：要在集群所有服務器都進行操作

（3）驗證無秘鑰認證登錄

 
                [along@hadoop02 ~]$  
                ssh  
                along@hadoop01 
               
                [along@hadoop02 ~]$  
                ssh  
                along@hadoop02 
               
                [along@hadoop02 ~]$  
                ssh  
                along@hadoop03

2.3 配置jdk

在三台機器上都需要操作

 
                [root@hadoop01 ~] 
                # tar -xvf jdk-8u201-linux-x64.tar.gz -C /usr/local 
               
                [root@hadoop01 ~] 
                # chown along.along -R /usr/local/jdk1.8.0_201/ 
               
                [root@hadoop01 ~] 
                # ln -s /usr/local/jdk1.8.0_201/ /usr/local/jdk 
               
                [root@hadoop01 ~] 
                # cat /etc/profile.d/jdk.sh 
               
                export  
                JAVA_HOME= 
                /usr/local/jdk 
               
                PATH=$JAVA_HOME 
                /bin 
                :$JAVA_HOME 
                /jre/bin 
                :$PATH 
               
                [root@hadoop01 ~] 
                # source /etc/profile.d/jdk.sh 
               
                [along@hadoop01 ~]$ java -version 
               
                java version  
                "1.8.0_201" 
               
                Java(TM) SE Runtime Environment (build 1.8.0_201-b09) 
               
                Java HotSpot(TM) 64-Bit Server VM (build 25.201-b09, mixed mode)

2.4 安裝hadoop

 
                [root@hadoop01 ~] 
                # wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gz 
               
                [root@hadoop01 ~] 
                # tar -xvf hadoop-3.2.0.tar.gz -C /usr/local/ 
               
                [root@hadoop01 ~] 
                # chown along.along -R /usr/local/hadoop-3.2.0/ 
               
                [root@hadoop01 ~] 
                # ln -s /usr/local/hadoop-3.2.0/  /usr/local/hadoop

3、配置啟動hadoop

3.1 hadoop-env.sh 配置hadoop環境變量

 
                [along@hadoop01 ~]$  
                cd  
                /usr/local/hadoop/etc/hadoop/ 
               
                [along@hadoop01 hadoop]$ vim hadoop- 
                env 
                .sh 
               
                export  
                JAVA_HOME= 
                /usr/local/jdk 
               
                export  
                HADOOP_HOME= 
                /usr/local/hadoop 
               
                export  
                HADOOP_CONF_DIR=${HADOOP_HOME} 
                /etc/hadoop

3.2 core-site.xml 配置HDFS

 
                [along@hadoop01 hadoop]$ vim core-site.xml 
               
                <configuration> 
               
                <!-- 指定HDFS默認（namenode）的通信地址 --> 
               
                <property> 
               
                <name>fs.defaultFS< 
                /name 
                > 
               
                <value>hdfs: 
                //hadoop01 
                :9000< 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <!-- 指定hadoop運行時產生文件的存儲路徑 --> 
               
                <property> 
               
                <name>hadoop.tmp. 
                dir 
                < 
                /name 
                > 
               
                <value> 
                /data/hadoop/tmp 
                < 
                /value 
                > 
               
                < 
                /property 
                > 
               
                < 
                /configuration 
                > 
               
                [root@hadoop01 ~] 
                # mkdir /data/hadoop

3.3 hdfs-site.xml 配置namenode

 
                [along@hadoop01 hadoop]$ vim hdfs-site.xml 
               
                <configuration> 
               
                <!-- 設置namenode的http通訊地址 --> 
               
                <property> 
               
                <name>dfs.namenode.http-address< 
                /name 
                > 
               
                <value>hadoop01:50070< 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <!-- 設置secondarynamenode的http通訊地址 --> 
               
                <property> 
               
                <name>dfs.namenode.secondary.http-address< 
                /name 
                > 
               
                <value>hadoop02:50090< 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <!-- 設置namenode存放的路徑 --> 
               
                <property> 
               
                <name>dfs.namenode.name. 
                dir 
                < 
                /name 
                > 
               
                <value> 
                /data/hadoop/name 
                < 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <!-- 設置hdfs副本數量 --> 
               
                <property> 
               
                <name>dfs.replication< 
                /name 
                > 
               
                <value>2< 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <!-- 設置datanode存放的路徑 --> 
               
                <property> 
               
                <name>dfs.datanode.data. 
                dir 
                < 
                /name 
                > 
               
                <value> 
                /data/hadoop/datanode 
                < 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <property> 
               
                <name>dfs.permissions< 
                /name 
                > 
               
                <value> 
                false 
                < 
                /value 
                > 
               
                < 
                /property 
                > 
               
                < 
                /configuration 
                > 
               
                [root@hadoop01 ~] 
                # mkdir /data/hadoop/name -p 
               
                [root@hadoop01 ~] 
                # mkdir /data/hadoop/datanode -p

3.4 mapred-site.xml 配置框架

 
                [along@hadoop01 hadoop]$ vim mapred-site.xml 
               
                <configuration> 
               
                <!-- 通知框架MR使用YARN --> 
               
                <property> 
               
                <name>mapreduce.framework.name< 
                /name 
                > 
               
                <value>yarn< 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <property> 
               
                <name>mapreduce.application.classpath< 
                /name 
                > 
               
                <value> 
               
                /usr/local/hadoop/etc/hadoop 
                , 
               
                /usr/local/hadoop/share/hadoop/common/ 
                *, 
               
                /usr/local/hadoop/share/hadoop/common/lib/ 
                *, 
               
                /usr/local/hadoop/share/hadoop/hdfs/ 
                *, 
               
                /usr/local/hadoop/share/hadoop/hdfs/lib/ 
                *, 
               
                /usr/local/hadoop/share/hadoop/mapreduce/ 
                *, 
               
                /usr/local/hadoop/share/hadoop/mapreduce/lib/ 
                *, 
               
                /usr/local/hadoop/share/hadoop/yarn/ 
                *, 
               
                /usr/local/hadoop/share/hadoop/yarn/lib/ 
                * 
               
                < 
                /value 
                > 
               
                < 
                /property 
                > 
               
                < 
                /configuration 
                >

3.5 yarn-site.xml 配置resourcemanager

 
                [along@hadoop01 hadoop]$ vim yarn-site.xml 
               
                <configuration> 
               
                <property> 
               
                <name>yarn.resourcemanager. 
                hostname 
                < 
                /name 
                > 
               
                <value>hadoop01< 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <property> 
               
                <description>The http address of the RM web application.< 
                /description 
                > 
               
                <name>yarn.resourcemanager.webapp.address< 
                /name 
                > 
               
                <value>${yarn.resourcemanager. 
                hostname 
                }:8088< 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <property> 
               
                <description>The address of the applications manager interface  
                in  
                the RM.< 
                /description 
                > 
               
                <name>yarn.resourcemanager.address< 
                /name 
                > 
               
                <value>${yarn.resourcemanager. 
                hostname 
                }:8032< 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <property> 
               
                <description>The address of the scheduler interface.< 
                /description 
                > 
               
                <name>yarn.resourcemanager.scheduler.address< 
                /name 
                > 
               
                <value>${yarn.resourcemanager. 
                hostname 
                }:8030< 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <property> 
               
                <name>yarn.resourcemanager.resource-tracker.address< 
                /name 
                > 
               
                <value>${yarn.resourcemanager. 
                hostname 
                }:8031< 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <property> 
               
                <description>The address of the RM admin interface.< 
                /description 
                > 
               
                <name>yarn.resourcemanager.admin.address< 
                /name 
                > 
               
                <value>${yarn.resourcemanager. 
                hostname 
                }:8033< 
                /value 
                > 
               
                < 
                /property 
                > 
               
                < 
                /configuration 
                >

3.6 配置masters & slaves

 
                [along@hadoop01 hadoop]$  
                echo  
                'hadoop02'  
                >>  
                /usr/local/hadoop/etc/hadoop/masters 
               
                [along@hadoop01 hadoop]$  
                echo  
                'hadoop03 hadoop01'   
                >>  
                /usr/local/hadoop/etc/hadoop/slaves

3.7 啟動前准備

3.7.1 准備啟動腳本

啟動腳本文件全部位於 /usr/local/hadoop/sbin 文件夾下：

（1）修改 start-dfs.sh stop-dfs.sh 文件添加：

 
                [along@hadoop01 ~]$ vim  
                /usr/local/hadoop/sbin/start-dfs 
                .sh 
               
                [along@hadoop01 ~]$ vim  
                /usr/local/hadoop/sbin/stop-dfs 
                .sh 
               
                HDFS_DATANODE_USER=along 
               
                HADOOP_SECURE_DN_USER=hdfs 
               
                HDFS_NAMENODE_USER=along 
               
                HDFS_SECONDARYNAMENODE_USER=along

（2）修改start-yarn.sh 和 stop-yarn.sh文件添加：

 
                [along@hadoop01 ~]$ vim  
                /usr/local/hadoop/sbin/start-yarn 
                .sh 
               
                [along@hadoop01 ~]$ vim  
                /usr/local/hadoop/sbin/stop-yarn 
                .sh 
               
                YARN_RESOURCEMANAGER_USER=along 
               
                HADOOP_SECURE_DN_USER=yarn 
               
                YARN_NODEMANAGER_USER=along

3.7.2 授權

 
                [root@hadoop01 ~] 
                # chown -R along.along /usr/local/hadoop-3.2.0/ 
               
                [root@hadoop01 ~] 
                # chown -R along.along /data/hadoop/

3.7.3 配置hadoop命令環境變量

 
                [root@hadoop01 ~] 
                # vim /etc/profile.d/hadoop.sh 
               
                [root@hadoop01 ~] 
                # cat /etc/profile.d/hadoop.sh 
               
                export  
                HADOOP_HOME= 
                /usr/local/hadoop 
               
                PATH=$HADOOP_HOME 
                /bin 
                :$HADOOP_HOME 
                /sbin 
                :$PATH

3.7.4 集群初始化

 
                [root@hadoop01 ~] 
                # vim /data/hadoop/rsync.sh 
               
                #在集群內所有機器上都創建所需要的目錄 
               
                for  
                i  
                in  
                hadoop02 hadoop03 
               
                do 
               
                sudo  
                rsync  
                -a  
                /data/hadoop  
                $i: 
                /data/ 
               
                done 
               
                #復制hadoop配置到其他機器 
               
                for  
                i  
                in  
                hadoop02 hadoop03 
               
                do 
               
                sudo  
                rsync  
                -a   
                /usr/local/hadoop-3 
                .2.0 
                /etc/hadoop  
                $i: 
                /usr/local/hadoop-3 
                .2.0 
                /etc/ 
               
                done 
               
                [root@hadoop01 ~] 
                # /data/hadoop/rsync.sh

3.8 啟動hadoop集群

3.8.1 第一次啟動前需要格式化，集群所有服務器都需要；

 
                [along@hadoop01 ~]$ hdfs namenode - 
                format 
               
                ... ... 
               
                /************************************************************ 
               
                SHUTDOWN_MSG: Shutting down NameNode at hadoop01 
                /192 
                .168.10.101 
               
                ************************************************************/ 
               
                [along@hadoop02 ~]$ hdfs namenode - 
                format 
               
                /************************************************************ 
               
                SHUTDOWN_MSG: Shutting down NameNode at hadoop02 
                /192 
                .168.10.102 
               
                ************************************************************/ 
               
                [along@hadoop03 ~]$ hdfs namenode - 
                format 
               
                /************************************************************ 
               
                SHUTDOWN_MSG: Shutting down NameNode at hadoop03 
                /192 
                .168.10.103 
               
                ************************************************************/

3.8.2 啟動並驗證集群

（1）啟動namenode、datanode

 
                [along@hadoop01 ~]$ start-dfs.sh 
               
                [along@hadoop02 ~]$ start-dfs.sh 
               
                [along@hadoop03 ~]$ start-dfs.sh 
               
                [along@hadoop01 ~]$ jps 
               
                4480 DataNode 
               
                4727 Jps 
               
                4367 NameNode 
               
                [along@hadoop02 ~]$ jps 
               
                4082 Jps 
               
                3958 SecondaryNameNode 
               
                3789 DataNode 
               
                [along@hadoop03 ~]$ jps 
               
                2689 Jps 
               
                2475 DataNode

（2）啟動YARN

 
                [along@hadoop01 ~]$ start-yarn.sh 
               
                [along@hadoop02 ~]$ start-yarn.sh 
               
                [along@hadoop03 ~]$ start-yarn.sh 
               
                [along@hadoop01 ~]$ jps 
               
                4480 DataNode 
               
                4950 NodeManager 
               
                5447 NameNode 
               
                5561 Jps 
               
                4842 ResourceManager 
               
                [along@hadoop02 ~]$ jps 
               
                3958 SecondaryNameNode 
               
                4503 Jps 
               
                3789 DataNode 
               
                4367 NodeManager 
               
                [along@hadoop03 ~]$ jps 
               
                12353 Jps 
               
                12226 NodeManager 
               
                2475 DataNode

3.9 集群啟動成功

（1）網頁訪問：http://hadoop01:8088

該頁面為ResourceManager 管理界面，在上面可以看到集群中的三台Active Nodes。

（2）網頁訪問：http://hadoop01:50070/dfshealth.html#tab-datanode

該頁面為NameNode管理頁面

到此hadoop集群已經搭建完畢！！！

4、安裝配置Hbase

4.1 安裝Hbase

 
                [root@hadoop01 ~] 
                # wget https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/1.4.9/hbase-1.4.9-bin.tar.gz 
               
                [root@hadoop01 ~] 
                # tar -xvf hbase-1.4.9-bin.tar.gz -C /usr/local/ 
               
                [root@hadoop01 ~] 
                # chown -R along.along /usr/local/hbase-1.4.9/ 
               
                [root@hadoop01 ~] 
                # ln -s /usr/local/hbase-1.4.9/ /usr/local/hbase

注：當前時間2018.03.08，hbase-2.1版本有問題；也可能是我配置的問題，hbase會啟動失敗；所以，我降級到了hbase-1.4.9版本。

4.2 配置Hbase

4.2.1 hbase-env.sh 配置hbase環境變量

 
                [root@hadoop01 ~] 
                # cd /usr/local/hbase/conf/ 
               
                [root@hadoop01 conf] 
                # vim hbase-env.sh 
               
                export  
                JAVA_HOME= 
                /usr/local/jdk 
               
                export  
                HBASE_CLASSPATH= 
                /usr/local/hbase/conf

4.2.2 hbase-site.xml 配置hbase

 
                [root@hadoop01 conf] 
                # vim hbase-site.xml 
               
                <configuration> 
               
                <property> 
               
                <name>hbase.rootdir< 
                /name 
                > 
               
                <!-- hbase存放數據目錄 --> 
               
                <value>hdfs: 
                //hadoop01 
                :9000 
                /hbase/hbase_db 
                < 
                /value 
                > 
               
                <!-- 端口要和Hadoop的fs.defaultFS端口一致--> 
               
                < 
                /property 
                > 
               
                <property> 
               
                <name>hbase.cluster.distributed< 
                /name 
                > 
               
                <!-- 是否分布式部署 --> 
               
                <value> 
                true 
                < 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <property> 
               
                <name>hbase.zookeeper.quorum< 
                /name 
                > 
               
                <!-- zookooper 服務啟動的節點，只能為奇數個 --> 
               
                <value>hadoop01,hadoop02,hadoop03< 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <property> 
               
                <!--zookooper配置、日志等的存儲位置，必須為以存在 --> 
               
                <name>hbase.zookeeper.property.dataDir< 
                /name 
                > 
               
                <value> 
                /data/hbase/zookeeper 
                < 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <property> 
               
                <!--hbase master --> 
               
                <name>hbase.master< 
                /name 
                > 
               
                <value>hadoop01< 
                /value 
                > 
               
                < 
                /property 
                > 
               
                <property> 
               
                <!--hbase web 端口 --> 
               
                <name>hbase.master.info.port< 
                /name 
                > 
               
                <value>16666< 
                /value 
                > 
               
                < 
                /property 
                > 
               
                < 
                /configuration 
                >

注：zookeeper有這樣一個特性：

集群中只要有過半的機器是正常工作的，那么整個集群對外就是可用的。
也就是說如果有2個zookeeper，那么只要有1個死了zookeeper就不能用了，因為1沒有過半，所以2個zookeeper的死亡容忍度為0；
同理，要是有3個zookeeper，一個死了，還剩下2個正常的，過半了，所以3個zookeeper的容忍度為1；
再多列舉幾個：2->0 ; 3->1 ; 4->1 ; 5->2 ; 6->2 會發現一個規律，2n和2n-1的容忍度是一樣的，都是n-1，所以為了更加高效，何必增加那一個不必要的zookeeper

4.2.3 指定集群節點

 
                [root@hadoop01 conf] 
                # vim regionservers 
               
                hadoop01 
               
                hadoop02 
               
                hadoop03

5、啟動Hbase集群

5.1 配置hbase命令環境變量

 
                [root@hadoop01 ~] 
                # vim /etc/profile.d/hbase.sh 
               
                export  
                HBASE_HOME= 
                /usr/local/hbase 
               
                PATH=$HBASE_HOME 
                /bin 
                :$PATH

5.2 啟動前准備

 
                [root@hadoop01 ~] 
                # mkdir -p /data/hbase/zookeeper 
               
                [root@hadoop01 ~] 
                # vim /data/hbase/rsync.sh 
               
                #在集群內所有機器上都創建所需要的目錄 
               
                for  
                i  
                in  
                hadoop02 hadoop03 
               
                do 
               
                sudo  
                rsync  
                -a  
                /data/hbase  
                $i: 
                /data/ 
               
                sudo  
                scp  
                -p  
                /etc/profile 
                .d 
                /hbase 
                .sh $i: 
                /etc/profile 
                .d/ 
               
                done 
               
                #復制hbase配置到其他機器 
               
                for  
                i  
                in  
                hadoop02 hadoop03 
               
                do 
               
                sudo  
                rsync  
                -a   
                /usr/local/hbase-2 
                .1.3 $i: 
                /usr/local/ 
               
                done 
               
                [root@hadoop01 conf] 
                # chown -R along.along /data/hbase 
               
                [root@hadoop01 ~] 
                # /data/hbase/rsync.sh 
               
                hbase.sh                                                        100%   62     0.1KB 
                /s    
                00:00    
               
                hbase.sh                                                        100%   62     0.1KB 
                /s    
                00:00

5.3 啟動hbase

注：只需在hadoop01服務器上操作即可。

（1）啟動

 
                [along@hadoop01 ~]$ start-hbase.sh 
               
                hadoop03: running zookeeper, logging to  
                /usr/local/hbase/logs/hbase-along-zookeeper-hadoop03 
                .out 
               
                hadoop01: running zookeeper, logging to  
                /usr/local/hbase/logs/hbase-along-zookeeper-hadoop01 
                .out 
               
                hadoop02: running zookeeper, logging to  
                /usr/local/hbase/logs/hbase-along-zookeeper-hadoop02 
                .out 
               
                ... ...

（2）驗證

 
                ---主hbase 
               
                [along@hadoop01 ~]$ jps 
               
                4480 DataNode 
               
                23411 HQuorumPeer        
                # zookeeper進程 
               
                4950 NodeManager 
               
                24102 Jps 
               
                5447 NameNode 
               
                23544 HMaster            
                # hbase master進程 
               
                4842 ResourceManager 
               
                23711 HRegionServer 
               
                ---2個從 
               
                [along@hadoop02 ~]$ jps 
               
                12948 HRegionServer      
                # hbase slave進程 
               
                3958 SecondaryNameNode 
               
                13209 Jps 
               
                12794 HQuorumPeer        
                # zookeeper進程 
               
                3789 DataNode 
               
                4367 NodeManager 
               
                [along@hadoop03 ~]$ jps 
               
                12226 NodeManager 
               
                19559 Jps 
               
                19336 HRegionServer      
                # hbase slave進程 
               
                19178 HQuorumPeer        
                # zookeeper進程 
               
                2475 DataNode

5.4 頁面查看hbase狀態

網頁訪問http://hadoop01:16666

6、簡單操作Hbase

6.1 hbase shell基本操作命令

名稱	命令表達式
創建表	create '表名稱','列簇名稱1','列簇名稱2'.......
添加記錄	put '表名稱', '行名稱','列簇名稱:','值'
查看記錄	get '表名稱','行名稱'
查看表中的記錄總數	count '表名稱'
刪除記錄	delete '表名',行名稱','列簇名稱'
刪除表	①disable '表名稱' ②drop '表名稱'
查看所有記錄	scan '表名稱'
查看某個表某個列中所有數據	scan '表名稱',['列簇名稱:']
更新記錄	即重寫一遍進行覆蓋

6.2 一般操作

（1）啟動hbase 客戶端

 
                [along@hadoop01 ~]$ hbase shell     
                #需要等待一些時間 
               
                SLF4J: Class path contains multiple SLF4J bindings. 
               
                SLF4J: Found binding  
                in  
                [jar: 
                file 
                : 
                /usr/local/hbase-1 
                .4.9 
                /lib/slf4j-log4j12-1 
                .7.10.jar! 
                /org/slf4j/impl/StaticLoggerBinder 
                .class] 
               
                SLF4J: Found binding  
                in  
                [jar: 
                file 
                : 
                /usr/local/hadoop-3 
                .2.0 
                /share/hadoop/common/lib/slf4j-log4j12-1 
                .7.25.jar! 
                /org/slf4j/impl/StaticLoggerBinder 
                .class] 
               
                SLF4J: See http: 
                //www 
                .slf4j.org 
                /codes 
                .html 
                #multiple_bindings for an explanation. 
               
                SLF4J: Actual binding is of  
                type  
                [org.slf4j.impl.Log4jLoggerFactory] 
               
                HBase Shell 
               
                Use  
                "help"  
                to get list of supported commands. 
               
                Use  
                "exit"  
                to quit this interactive shell. 
               
                Version 1.4.9, rd625b212e46d01cb17db9ac2e9e927fdb201afa1, Wed Dec  5 11:54:10 PST 2018 
               
                hbase(main):001:0>

（2）查詢集群狀態

 
                hbase(main):001:0> status 
               
                1 active master, 0 backup masters, 3 servers, 0 dead, 0.6667 average load

（3）查詢hive版本

 
                hbase(main):002:0> version 
               
                1.4.9, rd625b212e46d01cb17db9ac2e9e927fdb201afa1, Wed Dec  5 11:54:10 PST 2018

6.3 DDL操作

（1）創建一個demo表，包含 id和info 兩個列簇

 
                hbase(main):001:0> create  
                'demo' 
                , 
                'id' 
                , 
                'info' 
               
                0 row(s)  
                in  
                23.2010 seconds 
               
                => Hbase::Table - demo

（2）獲得表的描述

 
           
            
              
              
                hbase(main):002:0> list 
               
 
                TABLE                                                                                             
               
 
                demo                                                                                              
               
 
                1 row(s)  
                in  
                0.6380 seconds 
               

                   
               
 
                => [ 
                "demo" 
                ] 
               
 
                ---獲取詳細描述 
               
 
                hbase(main):003:0> describe  
                'demo' 
               
 
                Table demo is ENABLED                                                                             
               
 
                demo                                                                                              
               
 
                COLUMN FAMILIES DESCRIPTION                                                                       
               
 
                {NAME =>  
                'id' 
                , BLOOMFILTER =>  
                'ROW' 
                , VERSIONS =>  
                '1' 
                , IN_MEMORY =>  
                'false' 
                , KEEP_DELETED_CELLS => 
               
 
                'FALSE' 
                , DATA_BLOCK_ENCODING =>  
                'NONE' 
                , TTL =>  
                'FOREVER' 
                , COMPRESSION =>  
                'NONE' 
                , MIN_VERSIONS => ' 
               
 
                0 
                ', BLOCKCACHE => ' 
                true 
                ', BLOCKSIZE => ' 
                65536 
                ', REPLICATION_SCOPE => ' 
                0'}                         
               
 
                {NAME =>  
                'info' 
                , BLOOMFILTER =>  
                'ROW' 
                , VERSIONS =>  
                '1' 
                , IN_MEMORY =>  
                'false' 
                , KEEP_DELETED_CELLS = 
               
 
                >  
                'FALSE' 
                , DATA_BLOCK_ENCODING =>  
                'NONE' 
                , TTL =>  
                'FOREVER' 
                , COMPRESSION =>  
                'NONE' 
                , MIN_VERSIONS => 
               
 
                  
                '0' 
                , BLOCKCACHE =>  
                'true' 
                , BLOCKSIZE =>  
                '65536' 
                , REPLICATION_SCOPE =>  
                '0' 
                }                       
               
 
                2 row(s)  
                in  
                0.3500 seconds 
               
 
            
 
           
         

（3）刪除一個列簇

注：任何刪除操作，都需要先disable表

 
                hbase(main):004:0> disable  
                'demo' 
               
                0 row(s)  
                in  
                2.5930 seconds 
               
                hbase(main):006:0> alter  
                'demo' 
                ,{NAME=> 
                'info' 
                ,METHOD=> 
                'delete' 
                } 
               
                Updating all regions with the new schema... 
               
                1 
                /1  
                regions updated. 
               
                Done. 
               
                0 row(s)  
                in  
                4.3410 seconds 
               
                hbase(main):007:0> describe  
                'demo' 
               
                Table demo is DISABLED                                                                              
               
                demo                                                                                                
               
                COLUMN FAMILIES DESCRIPTION                                                                         
               
                {NAME =>  
                'id' 
                , BLOOMFILTER =>  
                'ROW' 
                , VERSIONS =>  
                '1' 
                , IN_MEMORY =>  
                'false' 
                , KEEP_DELETED_CELLS => 'F 
               
                ALSE 
                ', DATA_BLOCK_ENCODING => ' 
                NONE 
                ', TTL => ' 
                FOREVER 
                ', COMPRESSION => ' 
                NONE 
                ', MIN_VERSIONS => ' 
                0', 
               
                BLOCKCACHE =>  
                'true' 
                , BLOCKSIZE =>  
                '65536' 
                , REPLICATION_SCOPE =>  
                '0' 
                }                               
               
                1 row(s)  
                in  
                0.1510 seconds

（4）刪除一個表

要先disable表,再drop

 
                hbase(main):008:0> list 
               
                TABLE                                                                                               
               
                demo                                                                                                
               
                1 row(s)  
                in  
                0.1010 seconds 
               
                => [ 
                "demo" 
                ] 
               
                hbase(main):009:0> disable  
                'demo' 
               
                0 row(s)  
                in  
                0.0480 seconds 
               
                hbase(main):010:0> is_disabled  
                'demo'    
                #判斷表是否disable 
               
                true                                                                                                
               
                0 row(s)  
                in  
                0.0210 seconds 
               
                hbase(main):013:0> drop  
                'demo' 
               
                0 row(s)  
                in  
                2.3270 seconds 
               
                hbase(main):014:0> list    
                #已經刪除成功 
               
                TABLE                                                                                               
               
                0 row(s)  
                in  
                0.0250 seconds 
               
                => [] 
               
                hbase(main):015:0> is_enabled  
                'demo'    
                #查詢是否存在demo表 
               
                ERROR: Unknown table demo!

6.4 DML操作

（1）插入數據

 
                hbase(main):024:0> create  
                'demo' 
                , 
                'id' 
                , 
                'info' 
               
                0 row(s)  
                in  
                10.0720 seconds 
               
                => Hbase::Table - demo 
               
                hbase(main):025:0> is_enabled  
                'demo' 
               
                true                                                                                                
               
                0 row(s)  
                in  
                0.1930 seconds 
               
                hbase(main):030:0> put  
                'demo' 
                , 
                'example' 
                , 
                'id:name' 
                , 
                'along' 
               
                0 row(s)  
                in  
                0.0180 seconds 
               
                hbase(main):039:0> put  
                'demo' 
                , 
                'example' 
                , 
                'id:sex' 
                , 
                'male' 
               
                0 row(s)  
                in  
                0.0860 seconds 
               
                hbase(main):040:0> put  
                'demo' 
                , 
                'example' 
                , 
                'id:age' 
                , 
                '24' 
               
                0 row(s)  
                in  
                0.0120 seconds 
               
                hbase(main):041:0> put  
                'demo' 
                , 
                'example' 
                , 
                'id:company' 
                , 
                'taobao' 
               
                0 row(s)  
                in  
                0.3840 seconds 
               
                hbase(main):042:0> put  
                'demo' 
                , 
                'taobao' 
                , 
                'info:addres' 
                , 
                'china' 
               
                0 row(s)  
                in  
                0.1910 seconds 
               
                hbase(main):043:0> put  
                'demo' 
                , 
                'taobao' 
                , 
                'info:company' 
                , 
                'alibaba' 
               
                0 row(s)  
                in  
                0.0300 seconds 
               
                hbase(main):044:0> put  
                'demo' 
                , 
                'taobao' 
                , 
                'info:boss' 
                , 
                'mayun' 
               
                0 row(s)  
                in  
                0.1260 seconds

（2）獲取demo表的數據

 
                hbase(main):045:0> get  
                'demo' 
                , 
                'example' 
               
                COLUMN                     CELL                                                                     
               
                id 
                :age                    timestamp=1552030411620, value=24                                        
               
                id 
                :company                timestamp=1552030467196, value=taobao                                    
               
                id 
                :name                   timestamp=1552030380723, value=along                                     
               
                id 
                :sex                    timestamp=1552030392249, value=male                                      
               
                1 row(s)  
                in  
                0.8850 seconds 
               
                hbase(main):046:0> get  
                'demo' 
                , 
                'taobao' 
               
                COLUMN                     CELL                                                                     
               
                info:addres               timestamp=1552030496973, value=china                                     
               
                info:boss                 timestamp=1552030532254, value=mayun                                     
               
                info:company              timestamp=1552030520028, value=alibaba                                   
               
                1 row(s)  
                in  
                0.2500 seconds 
               
                hbase(main):047:0> get  
                'demo' 
                , 
                'example' 
                , 
                'id' 
               
                COLUMN                     CELL                                                                     
               
                id 
                :age                    timestamp=1552030411620, value=24                                        
               
                id 
                :company                timestamp=1552030467196, value=taobao                                    
               
                id 
                :name                   timestamp=1552030380723, value=along                                     
               
                id 
                :sex                    timestamp=1552030392249, value=male                                      
               
                1 row(s)  
                in  
                0.3150 seconds 
               
                hbase(main):048:0> get  
                'demo' 
                , 
                'example' 
                , 
                'info' 
               
                COLUMN                     CELL                                                                     
               
                0 row(s)  
                in  
                0.0200 seconds 
               
                hbase(main):049:0> get  
                'demo' 
                , 
                'taobao' 
                , 
                'id' 
               
                COLUMN                     CELL                                                                     
               
                0 row(s)  
                in  
                0.0410 seconds 
               
                hbase(main):053:0> get  
                'demo' 
                , 
                'taobao' 
                , 
                'info' 
               
                COLUMN                     CELL                                                                     
               
                info:addres               timestamp=1552030496973, value=china                                     
               
                info:boss                 timestamp=1552030532254, value=mayun                                     
               
                info:company              timestamp=1552030520028, value=alibaba                                   
               
                1 row(s)  
                in  
                0.0240 seconds 
               
                hbase(main):055:0> get  
                'demo' 
                , 
                'taobao' 
                , 
                'info:boss' 
               
                COLUMN                     CELL                                                                     
               
                info:boss                 timestamp=1552030532254, value=mayun                                     
               
                1 row(s)  
                in  
                0.1810 seconds

（3）更新一條記錄

 
                hbase(main):056:0> put  
                'demo' 
                , 
                'example' 
                , 
                'id:age' 
                , 
                '88' 
               
                0 row(s)  
                in  
                0.1730 seconds 
               
                hbase(main):057:0> get  
                'demo' 
                , 
                'example' 
                , 
                'id:age' 
               
                COLUMN                     CELL                                                                     
               
                id 
                :age                    timestamp=1552030841823, value=88                                        
               
                1 row(s)  
                in  
                0.1430 seconds

（4）獲取時間戳數據

大家應該看到timestamp這個標記

 
                hbase(main):059:0> get  
                'demo' 
                , 
                'example' 
                ,{COLUMN=> 
                'id:age' 
                ,TIMESTAMP=>1552030841823} 
               
                COLUMN                     CELL                                                                     
               
                id 
                :age                    timestamp=1552030841823, value=88                                        
               
                1 row(s)  
                in  
                0.0200 seconds 
               
                hbase(main):060:0> get  
                'demo' 
                , 
                'example' 
                ,{COLUMN=> 
                'id:age' 
                ,TIMESTAMP=>1552030411620} 
               
                COLUMN                     CELL                                                                     
               
                id 
                :age                    timestamp=1552030411620, value=24                                        
               
                1 row(s)  
                in  
                0.0930 seconds

（5）全表顯示

 
                hbase(main):061:0> scan  
                'demo' 
               
                ROW                        COLUMN+CELL                                                              
               
                example                   column= 
                id 
                :age, timestamp=1552030841823, value=88                         
               
                example                   column= 
                id 
                :company, timestamp=1552030467196, value=taobao                 
               
                example                   column= 
                id 
                :name, timestamp=1552030380723, value=along                     
               
                example                   column= 
                id 
                :sex, timestamp=1552030392249, value=male                       
               
                taobao                    column=info:addres, timestamp=1552030496973, value=china                 
               
                taobao                    column=info:boss, timestamp=1552030532254, value=mayun                   
               
                taobao                    column=info:company, timestamp=1552030520028, value=alibaba              
               
                2 row(s)  
                in  
                0.3880 seconds

（6）刪除id為example的'id:age'字段

 
                hbase(main):062:0> delete  
                'demo' 
                , 
                'example' 
                , 
                'id:age' 
               
                0 row(s)  
                in  
                1.1360 seconds 
               
                hbase(main):063:0> get  
                'demo' 
                , 
                'example' 
               
                COLUMN                     CELL                                                                                                           
               
                id 
                :company                timestamp=1552030467196, value=taobao                                    
               
                id 
                :name                   timestamp=1552030380723, value=along                                     
               
                id 
                :sex                    timestamp=1552030392249, value=male

（7）刪除整行

 
                hbase(main):070:0> deleteall  
                'demo' 
                , 
                'taobao' 
               
                0 row(s)  
                in  
                1.8140 seconds 
               
                hbase(main):071:0> get  
                'demo' 
                , 
                'taobao' 
               
                COLUMN                     CELL                                                                     
               
                0 row(s)  
                in  
                0.2200 seconds

（8）給example這個id增加'id:age'字段,並使用counter實現遞增

 
                hbase(main):072:0> incr  
                'demo' 
                , 
                'example' 
                , 
                'id:age' 
               
                COUNTER VALUE = 1 
               
                0 row(s)  
                in  
                3.2200 seconds 
               
                hbase(main):073:0> get  
                'demo' 
                , 
                'example' 
                , 
                'id:age' 
               
                COLUMN                     CELL                                                                     
               
                id 
                :age                    timestamp=1552031388997, value=\x00\x00\x00\x00\x00\x00\x00\x01          
               
                1 row(s)  
                in  
                0.0280 seconds 
               
                hbase(main):074:0> incr  
                'demo' 
                , 
                'example' 
                , 
                'id:age' 
               
                COUNTER VALUE = 2 
               
                0 row(s)  
                in  
                0.0340 seconds 
               
                hbase(main):075:0> incr  
                'demo' 
                , 
                'example' 
                , 
                'id:age' 
               
                COUNTER VALUE = 3 
               
                0 row(s)  
                in  
                0.0420 seconds 
               
                hbase(main):076:0> get  
                'demo' 
                , 
                'example' 
                , 
                'id:age' 
               
                COLUMN                     CELL                                                                     
               
                id 
                :age                    timestamp=1552031429912, value=\x00\x00\x00\x00\x00\x00\x00\x03          
               
                1 row(s)  
                in  
                0.0690 seconds 
               
                hbase(main):077:0> get_counter  
                'demo' 
                , 
                'example' 
                , 
                'id:age'    
                #獲取當前count值 
               
                COUNTER VALUE = 3

（9）清空整個表

 
                hbase(main):078:0> truncate  
                'demo' 
               
                Truncating  
                'demo'  
                table (it may take a  
                while 
                ): 
               
                - Disabling table... 
               
                - Truncating table... 
               
                0 row(s)  
                in  
                33.0820 seconds

可以看出hbase是先disable掉該表,然后drop,最后重新create該表來實現清空該表。

轉自https://www.cnblogs.com/along21/

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hadoop+Hbase分布式集群架構“完全篇” mongodb分布式集群架構 VMWare 搭建 Hadoop 完全分布式集群（含HBASE） Hadoop及Zookeeper+HBase完全分布式集群部署 1、搭建HBase完全分布式集群搭建HBase完全分布式集群 Neo4j分布式集群架構 Hadoop完全分布式集群配置 Hadoop完全分布式集群搭建 hadoop 完全分布式集群搭建