一臉懵逼學習HBase---基於HDFS實現的。（Hadoop的數據庫，分布式的，大數據量的，隨機的，實時的，非關系型數據庫）

本文轉載自查看原文 2017-10-25 15:25 1467 Hbase

1：HBase官網網址：http://hbase.apache.org/

2：HBase表結構：建表時，不需要指定表中的字段，只需要指定若干個列族，插入數據時，列族中可以存儲任意多個列（即KEY-VALUE，列名稱-列值）;一個value可以有多個版本，通過版本號來區分（時間戳）

3：要查詢某一個具體的字段，需要指定坐標：表名---->行健---->列族(ColumnFamily)：列名（Qualifier）---->版本;

4：HBase簡介：
　　HBase – Hadoop Database，是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統，利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。HBase利用Hadoop HDFS作為其文件存儲系統，利用Hadoop MapReduce來處理HBase中的海量數據，利用Zookeeper作為協調工具。

5：HBase基本概念知識：

　　5.1：主鍵：Row Key ：
　　　　主鍵是用來檢索記錄的主鍵，訪問hbase table中的行，只有三種方式：
　　　　　（1）通過單個row key訪問
　　　　　（2）通過row key的range
　　　　　（3）全表掃描
　　5.2：列族：Column Family：
　　　　列族在創建表的時候聲明，一個列族可以包含多個列，列中的數據都是以二進制形式存在，沒有數據類型。
　　5.3：時間戳：timestamp：
　　　　HBase中通過row和columns確定的為一個存貯單元稱為cell。每個 cell都保存着同一份數據的多個版本。版本通過時間戳來索引；

　　5.4：HBase中有兩張特殊的Table，-ROOT-和.META.
　　　　（a）：-ROOT- ：記錄了.META.表的Region信息，-ROOT-只有一個region
　　　　（b）：.META. ：記錄了用戶創建的表的Region信息，.META.可以有多個regoin
　　　（c）：Zookeeper中記錄了-ROOT-表的location
　　　　（d）：Client訪問用戶數據之前需要首先訪問zookeeper，然后訪問-ROOT-表，接着訪問.META.表，最后才能找到用戶數據的位置去訪問；

6：HBase基礎知識：
　　6.1：物理存儲
　　　Table 在行的方向上分割為多個HRegion，一個region由[startkey,endkey)表示
　　6.2：架構體系
　　　　（a）：Client 包含訪問hbase 的接口，client 維護着一些cache 來加快對hbase 的訪問，比如regione 的位置信息
　　　　（b）：Zookeeper
　　　　　　保證任何時候，集群中只有一個running master；
　　　　　　存貯所有Region 的尋址入口；
　　　　　　實時監控Region Server 的狀態，將Region server 的上線和下線信息，實時通知給Master；
　　　　　　存儲Hbase 的schema,包括有哪些table，每個table 有哪些column family；
　　　　（c）：Master 可以啟動多個HMaster，通過Zookeeper的Master Election機制保證：

　　　　　　總有一個Master運行
　　　　　　為Region server 分配region；
　　　　　　　負責region server 的負載均衡；
　　　　　　　發現失效的region server 並重新分配其上的region；

7：HBase的Region Server基本概念：
　　（a）：維護Master 分配給它的region，處理對這些region 的IO 請求
　　（b）：負責切分在運行過程中變得過大的region
　　（c）：可以看出，client 訪問hbase 上數據的過程並不需要master 參與，尋址訪問先zookeeper再regionserver，數據讀寫訪問regioneserver。HRegionServer主要負責響應用戶I/O請求，向HDFS文件系統中讀寫數據，是HBase中最核心的模塊。

8：HBase學習前提與相關軟件：

　　前提條件：本機或集群環境下hadoop.1.1.2已經安裝成功
　　相關軟件：
　　　　hadoop.1.1.2
　　　　hbase-0.94.2-security.tar.gz
　　　　JDK7
　　　　RHEL6.3
9：HBase Shell的學習（hbase提供了一個shell的終端給用戶交互）：

名稱	命令表達式
創建表	create '表名', '列族名1','列族名2','列族名N'
查看所有表	list
描述表	describe ‘表名’
判斷表存在	exists '表名'
判斷是否禁用啟用表	is_enabled '表名' is_disabled ‘表名’
添加記錄	put ‘表名’, ‘rowKey’, ‘列族 : 列‘ , '值'
查看記錄rowkey下的所有數據	get '表名' , 'rowKey'
查看表中的記錄總數	count '表名'
獲取某個列族	get '表名','rowkey','列族'
獲取某個列族的某個列	get '表名','rowkey','列族：列’
刪除記錄	delete ‘表名’ ,‘行名’ , ‘列族：列'
刪除整行	deleteall '表名','rowkey'
刪除一張表	先要屏蔽該表，才能對該表進行刪除第一步 disable ‘表名’ ，第二步 drop '表名'
清空表	truncate '表名'
查看所有記錄	scan "表名"
查看某個表某個列中所有數據	scan "表名" , {COLUMNS=>'列族名:列名'}
更新記錄	就是重寫一遍，進行覆蓋，hbase沒有修改，都是追加

10：hbase數據模型：

1.Row Key
    與nosql數據庫們一樣,row key是用來檢索記錄的主鍵。訪問HBASE table中的行，只有三種方式：
    a.通過單個row key訪問
    b.通過row key的range（正則）
    c.全表掃描
    Row key行鍵 (Row key)可以是任意字符串(最大長度 是 64KB，實際應用中長度一般為 10-100bytes)，在HBASE內部，row key保存為字節數組。存儲時，數據按照Row key的字典序(byte order)排序存儲。設計key時，要充分排序存儲這個特性，將經常一起讀取的行存儲放到一起。(位置相關性)
2.Columns Family
    列簇 ：HBASE表中的每個列，都歸屬於某個列族。列族是表的schema的一部 分(而列不是)，必須在使用表之前定義。列名都以列族作為前綴。例如 courses:history，courses:math都屬於courses 這個列族。
3.Cell
    由{row key, columnFamily, version} 唯一確定的單元。cell中 的數據是沒有類型的，全部是字節碼形式存貯。
關鍵字：無類型、字節碼
4.Time Stamp
    HBASE 中通過rowkey和columns確定的為一個存貯單元稱為cell。每個 cell都保存 着同一份數據的多個版本。版本通過時間戳來索引。時間戳的類型是 64位整型。時間戳可以由HBASE(在數據寫入時自動 )賦值，此時時間戳是精確到毫秒 的當前系統時間。時間戳也可以由客戶顯式賦值。如果應用程序要避免數據版 本沖突，就必須自己生成具有唯一性的時間戳。每個 cell中，不同版本的數據按照時間倒序排序，即最新的數據排在最前面。
    為了避免數據存在過多版本造成的的管理 (包括存貯和索引)負擔，HBASE提供 了兩種數據版本回收方式。一是保存數據的最后n個版本，二是保存最近一段 時間內的版本（比如最近七天）。用戶可以針對每個列族進行設置。

11：hbase依賴zookeeper：

1、保存Hmaster的地址和backup-master地址
    hmaster：
    a)管理HregionServer
    b)做增刪改查表的節點
    c)管理HregionServer中的表分配
2、保存表-ROOT-的地址
    hbase默認的根表，檢索表。
3、HRegionServer列表
    表的增刪改查數據。
    和hdfs交互，存取數據。

12：hbase開發：

12.hbase開發
　　12.1.配置
　　    HBaseConfiguration
        包：org.apache.hadoop.hbase.HBaseConfiguration
        作用：通過此類可以對HBase進行配置
        用法實例： 
        Configuration config = HBaseConfiguration.create();
        說明： HBaseConfiguration.create() 默認會從classpath 中查找 hbase-site.xml 中的配置信息，初始化 Configuration。

        使用方法:
        static Configuration config = null;
        static {
        config = HBaseConfiguration.create();
        config.set("hbase.zookeeper.quorum", "slave1,slave2,slave3");
        config.set("hbase.zookeeper.property.clientPort", "2181");
        }
    12.2.表管理類
        HBaseAdmin
        包：org.apache.hadoop.hbase.client.HBaseAdmin
        作用：提供接口關系HBase 數據庫中的表信息

        用法：
        HBaseAdmin admin = new HBaseAdmin(config);
    12.3.表描述類
        HTableDescriptor
        包：org.apache.hadoop.hbase.HTableDescriptor
        作用：HTableDescriptor 類包含了表的名字以及表的列族信息
          表的schema（設計）
        用法：
        HTableDescriptor htd =new HTableDescriptor(tablename);
        htd.addFamily(new HColumnDescriptor(“myFamily”));
    12.4.列族的描述類
        HColumnDescriptor
        包：org.apache.hadoop.hbase.HColumnDescriptor
        作用：HColumnDescriptor 維護列族的信息

        用法：
        htd.addFamily(new HColumnDescriptor(“myFamily”));
    12.5.創建表的操作
        CreateTable（一般我們用shell創建表）
        static Configuration config = null;
        static {
        config = HBaseConfiguration.create();
        config.set("hbase.zookeeper.quorum", "slave1,slave2,slave3");
        config.set("hbase.zookeeper.property.clientPort", "2181");
        }

        HBaseAdmin admin = new HBaseAdmin(config);
        HTableDescriptor desc = new HTableDescriptor(tableName);
        HColumnDescriptor family1 = new HColumnDescriptor(“f1”);
        HColumnDescriptor family2 = new HColumnDescriptor(“f2”);
        desc.addFamily(family1);
        desc.addFamily(family2);
        admin.createTable(desc);
    12.6.刪除表
        HBaseAdmin admin = new HBaseAdmin(config);
        admin.disableTable(tableName);
        admin.deleteTable(tableName);
    12.7.創建一個表的類
        HTable
        包：org.apache.hadoop.hbase.client.HTable
        作用：HTable 和 HBase 的表通信
        用法：
        // 普通獲取表
        HTable table = new HTable(config,Bytes.toBytes(tablename);
        // 通過連接池獲取表
        Connection connection = ConnectionFactory.createConnection(config);
        HTableInterface table = connection.getTable(TableName.valueOf("user"));
    12.8.單條插入數據
        Put
        包：org.apache.hadoop.hbase.client.Put
        作用：插入數據
        用法：
        Put put = new Put(row);
        p.add(family,qualifier,value);
        說明：向表 tablename 添加 “family,qualifier,value”指定的值。

        示例代碼：
        Connection connection = ConnectionFactory.createConnection(config);
        HTableInterface table = connection.getTable(TableName.valueOf("user"));
        Put put = new Put(Bytes.toBytes(rowKey));
        put.add(Bytes.toBytes(family), Bytes.toBytes(qualifier),Bytes.toBytes(value));
        table.put(put);
    12.9.批量插入
        批量插入
        List<Put> list = new ArrayList<Put>();
        Put put = new Put(Bytes.toBytes(rowKey));//獲取put，用於插入
        put.add(Bytes.toBytes(family), Bytes.toBytes(qualifier),Bytes.toBytes(value));//封裝信息
        list.add(put);
        table.put(list);//添加記錄
    12.10.刪除數據
        Delete
        包：org.apache.hadoop.hbase.client.Delete
        作用：刪除給定rowkey的數據
        用法：
        Delete del= new Delete(Bytes.toBytes(rowKey));
        table.delete(del);
        代碼實例
        Connection connection = ConnectionFactory.createConnection(config);
        HTableInterface table = connection.getTable(TableName.valueOf("user"));
        Delete del= new Delete(Bytes.toBytes(rowKey));
        table.delete(del);
    12.11.單條查詢
        Get
        包：org.apache.hadoop.hbase.client.Get
        作用：獲取單個行的數據
        用法：
        HTable table = new HTable(config,Bytes.toBytes(tablename));
        Get get = new Get(Bytes.toBytes(row));
        Result result = table.get(get);
        說明：獲取 tablename 表中 row 行的對應數據

        代碼示例：
        Connection connection = ConnectionFactory.createConnection(config);
        HTableInterface table = connection.getTable(TableName.valueOf("user"));
        Get get = new Get(rowKey.getBytes());
        Result row = table.get(get);
        for (KeyValue kv : row.raw()) {
        System.out.print(new String(kv.getRow()) + " ");
        System.out.print(new String(kv.getFamily()) + ":");
        System.out.print(new String(kv.getQualifier()) + " = ");
        System.out.print(new String(kv.getValue()));
        System.out.print(" timestamp = " + kv.getTimestamp() + "\n");
        }
    12.12.批量查詢
        ResultScanner
        包：org.apache.hadoop.hbase.client.ResultScanner
        作用：獲取值的接口
        用法：
        ResultScanner scanner = table.getScanner(scan);
        For(Result rowResult : scanner){
        Bytes[] str = rowResult.getValue(family,column);
        }
        說明：循環獲取行中列值。

        代碼示例：
        Connection connection = ConnectionFactory.createConnection(config);
        HTableInterface table = connection.getTable(TableName.valueOf("user"));
        Scan scan = new Scan();
        scan.setStartRow("a1".getBytes());
        scan.setStopRow("a20".getBytes());
        ResultScanner scanner = table.getScanner(scan);
        for (Result row : scanner) {
        System.out.println("\nRowkey: " + new String(row.getRow()));
        for (KeyValue kv : row.raw()) {
         System.out.print(new String(kv.getRow()) + " ");
         System.out.print(new String(kv.getFamily()) + ":");
         System.out.print(new String(kv.getQualifier()) + " = ");
         System.out.print(new String(kv.getValue()));
         System.out.print(" timestamp = " + kv.getTimestamp() + "\n");
        }
        }
    12.13.hbase過濾器
        12.13.1.FilterList
            FilterList 代表一個過濾器列表，可以添加多個過濾器進行查詢，多個過濾器之間的關系有：
            與關系（符合所有）：FilterList.Operator.MUST_PASS_ALL  
            或關系（符合任一）：FilterList.Operator.MUST_PASS_ONE    

            使用方法：
            FilterList filterList = new FilterList(FilterList.Operator.MUST_PASS_ONE);   
            Scan s1 = new Scan();  
            filterList.addFilter(new SingleColumnValueFilter(Bytes.toBytes(“f1”),  Bytes.toBytes(“c1”),  CompareOp.EQUAL,Bytes.toBytes(“v1”) )  );  
            filterList.addFilter(new SingleColumnValueFilter(Bytes.toBytes(“f1”),  Bytes.toBytes(“c2”),  CompareOp.EQUAL,Bytes.toBytes(“v2”) )  );  
            // 添加下面這一行后，則只返回指定的cell，同一行中的其他cell不返回  
            s1.addColumn(Bytes.toBytes(“f1”), Bytes.toBytes(“c1”));  
            s1.setFilter(filterList);  //設置filter
            ResultScanner ResultScannerFilterList = table.getScanner(s1);  //返回結果列表
        12.13.2.過濾器的種類
            過濾器的種類：
            列植過濾器—SingleColumnValueFilter 
            過濾列植的相等、不等、范圍等
            列名前綴過濾器—ColumnPrefixFilter 
            過濾指定前綴的列名
            多個列名前綴過濾器—MultipleColumnPrefixFilter
            過濾多個指定前綴的列名
            rowKey過濾器—RowFilter
            通過正則，過濾rowKey值。
        12.13.3.列植過濾器—SingleColumnValueFilter
            SingleColumnValueFilter 列值判斷
            相等 (CompareOp.EQUAL ), 
            不等(CompareOp.NOT_EQUAL),
            范圍 (e.g., CompareOp.GREATER)…………
            下面示例檢查列值和字符串'values' 相等...
            SingleColumnValueFilter f = new  SingleColumnValueFilter(
                Bytes.toBytes("cFamily")                              Bytes.toBytes("column"),             CompareFilter.CompareOp.EQUAL,
            Bytes.toBytes("values"));
            s1.setFilter(f);
            注意：如果過濾器過濾的列在數據表中有的行中不存在，那么這個過濾器對此行無法過濾。
        12.13.4.列名前綴過濾器—ColumnPrefixFilter
            過濾器—ColumnPrefixFilter 
            ColumnPrefixFilter 用於指定列名前綴值相等
            ColumnPrefixFilter f = new ColumnPrefixFilter(Bytes.toBytes("values"));
            s1.setFilter(f);
        12.13.5.多個列值前綴過濾器—MultipleColumnPrefixFilter
            MultipleColumnPrefixFilter 和 ColumnPrefixFilter 行為差不多，但可以指定多個前綴
            byte[][] prefixes = new byte[][] {Bytes.toBytes("value1"),Bytes.toBytes("value2")};
            Filter f = new MultipleColumnPrefixFilter(prefixes);
            s1.setFilter(f);
        12.13.6.rowKey過濾器—RowFilter
            RowFilter 是rowkey過濾器
            通常根據rowkey來指定范圍時，使用scan掃描器的StartRow和StopRow方法比較好。
            Filter f = new RowFilter(CompareFilter.CompareOp.EQUAL, new RegexStringComparator("^1234")); //匹配以1234開頭的rowkey
            s1.setFilter(f);

13.hbase原理：

13.1.1.寫流程
    1、client向hregionserver發送寫請求。
    2、hregionserver將數據寫到hlog（write ahead log）。為了數據的持久化和恢復。
    3、hregionserver將數據寫到內存（memstore）
    4、反饋client寫成功。
13.1.2.數據flush過程
    1、當memstore數據達到閾值（默認是64M），將數據刷到硬盤，將內存中的數據刪除，同時刪除Hlog中的歷史數據。
    2、並將數據存儲到hdfs中。
    3、在hlog中做標記點。
13.1.3.數據合並過程
    1、當數據塊達到4塊，hmaster將數據塊加載到本地，進行合並
    2、當合並的數據超過256M，進行拆分，將拆分后的region分配給不同的hregionserver管理
    3、當hregionser宕機后，將hregionserver上的hlog拆分，然后分配給不同的hregionserver加載，修改.META.    
    4、注意：hlog會同步到hdfs
13.1.4.hbase的讀流程
    1、通過zookeeper和-ROOT- .META.表定位hregionserver。
    2、數據從內存和硬盤合並后返回給client
    3、數據塊會緩存
13.1.5.hmaster的職責
    1、管理用戶對Table的增、刪、改、查操作； 
    2、記錄region在哪台Hregion server上
    3、在Region Split后，負責新Region的分配； 
    4、新機器加入時，管理HRegion Server的負載均衡，調整Region分布
    5、在HRegion Server宕機后，負責失效HRegion Server 上的Regions遷移。
13.1.6.hregionserver的職責
    HRegion Server主要負責響應用戶I/O請求，向HDFS文件系統中讀寫數據，是HBASE中最核心的模塊。
    HRegion Server管理了很多table的分區，也就是region。
13.1.7.client職責
    Client
    HBASE Client使用HBASE的RPC機制與HMaster和RegionServer進行通信
    管理類操作：Client與HMaster進行RPC；
    數據讀寫類操作：Client與HRegionServer進行RPC。

14.MapReduce操作Hbase：

14.1.實現方法
Hbase對MapReduce提供支持，它實現了TableMapper類和TableReducer類，我們只需要繼承這兩個類即可。
1、寫個mapper繼承TableMapper<Text, IntWritable>
    參數：Text：mapper的輸出key類型； IntWritable：mapper的輸出value類型。
      其中的map方法如下：
    map(ImmutableBytesWritable key, Result value,Context context)
     參數：key：rowKey；value： Result ，一行數據； context上下文
2、寫個reduce繼承TableReducer<Text, IntWritable, ImmutableBytesWritable>
    參數：Text:reducer的輸入key； IntWritable：reduce的輸入value；
     ImmutableBytesWritable：reduce輸出到hbase中的rowKey類型。
      其中的reduce方法如下：
    reduce(Text key, Iterable<IntWritable> values,Context context)
    參數： key：reduce的輸入key；values：reduce的輸入value；

待續......

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 一臉懵逼搭建Zookeeper分布式集群面試官：談談分布式一致性機制，我一臉懵逼。。一臉懵逼學習基於CentOs的Hadoop集群安裝與配置（三台機器跑集群）一臉懵逼學習keepalived（對Nginx進行熱備） GreenPlum：基於PostgreSQL的分布式關系型數據庫 Hadoop第三天---分布式文件系統HDFS(大數據存儲實戰) 大數據量數據庫優化 spring Batch實現數據庫大數據量讀寫數據庫：關系型數據庫與分布式數據庫的區別大數據-分布式-Hadoop介紹