hbase操作（shell 命令，如建表，清空表，增刪改查）以及 hbase表存儲結構和原理

本文轉載自查看原文 2015-09-09 16:11 6481

兩篇講的不錯文章

http://www.cnblogs.com/nexiyi/p/hbase_shell.html
http://blog.csdn.net/u010967382/article/details/37878701?utm_source=tuicool&utm_medium=referral

hbase操做
- - hbase web操作
  - hbase shell 基本操作
hbase原理及時間戳管理介紹
- - hbase 表

hbase操做

hbase web操作

訪問地址 http://hmaster:60010
hmaster的ip配置在$HBASE_HOME/conf/hbase-site.xml中
ip映射成主機名
    在env/hosts中配置
    在windows系統中的C:\Windows\System32\drivers\etc目錄下的hosts文件中配置）

hbase shell 基本操作：

hbase shell 進入hbase console命令
whoami 查用戶
help查看基本命令集合
help command 查看命令幫助
list看庫中所有表
status 查看當前運行服務器狀態
version 版本查詢
exits '表名字' 判斷表存在

hbase shell中刪除為 ctrl + backspace（單按刪除鍵不好使）

1）建表

    語法：create <table>, {NAME => <family>, VERSIONS => <VERSIONS>}

具體命令

    hbase(main):004:0> exists 'test'
    hbase(main):005:0> create 'test','cf'

    hbase> create 't1', {NAME => 'f1', VERSIONS => 5}
    hbase> create 't1', {NAME => 'f1'}, {NAME => 'f2'}, {NAME => 'f3'}
    省略模式建立列族
    hbase> create 't1', 'f1', 'f2', 'f3'
    指定每個列族參數
    hbase> create 't1', {NAME => 'f1', VERSIONS => 1, TTL => 2592000, BLOCKCACHE => true}
    hbase> create 't1', 'f1', {SPLITS => ['10', '20', '30', '40']}
    hbase> create 't1', 'f1', {SPLITS_FILE => 'splits.txt'}
    hbase> # Optionally pre-split the table into NUMREGIONS, using
    hbase> # SPLITALGO ("HexStringSplit", "UniformSplit" or classname)
    hbase> create 't1', 'f1', {NUMREGIONS => 15, SPLITALGO => 'HexStringSplit'}
    設置不同參數，提升表的讀取性能。
    create 'lmj_test',
        {NAME => 'adn', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROWCOL', REPLICATION_SCOPE => '0', COMPRESSION => 'SNAPPY', VERSIONS => '1', TTL => '15768000', MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', ENCODE_ON_DISK => 'true', IN_MEMORY => 'false', BLOCKCACHE => 'false'}, 
        {NAME => 'fixeddim', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROWCOL', REPLICATION_SCOPE => '0', COMPRESSION => 'SNAPPY', VERSIONS => '1', TTL => '15768000', MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', ENCODE_ON_DISK => 'true', IN_MEMORY => 'false', BLOCKCACHE => 'false'}, 
        {NAME => 'social', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROWCOL', REPLICATION_SCOPE => '0', COMPRESSION => 'SNAPPY', VERSIONS => '1', TTL => '15768000', MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', ENCODE_ON_DISK => 'true', IN_MEMORY => 'false', BLOCKCACHE => 'false'}
    每個參數屬性都有性能意義，通過合理化的設置可以提升表的性能
     create 'lmj_test',
        {NAME => 'adn', BLOOMFILTER => 'ROWCOL', VERSIONS => '1', TTL => '15768000', MIN_VERSIONS => '0', COMPRESSION => 'SNAPPY', BLOCKCACHE => 'false'},
        {NAME => 'fixeddim',BLOOMFILTER => 'ROWCOL', VERSIONS => '1', TTL => '15768000', MIN_VERSIONS => '0', COMPRESSION => 'SNAPPY', BLOCKCACHE => 'false'},
        {NAME => 'social',BLOOMFILTER => 'ROWCOL', VERSIONS => '1', TTL => '15768000', MIN_VERSIONS => '0',COMPRESSION => 'SNAPPY', BLOCKCACHE => 'false'}

2）建表后查看表：describe

    得出
    {NAME => 'lmj_test', 
    FAMILIES => 
    [
    {NAME => 'adn', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROWCOL', REPLICATION_SCOPE => '0', COMPRESSION => 'SNAPPY', VERSIONS => '1', TTL => '15768000', MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', ENCODE_ON_DISK => 'true', IN_MEMORY => 'false', BLOCKCACHE => 'false'}, 
                {NAME => 'fixeddim', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROWCOL', REPLICATION_SCOPE => '0', COMPRESSION => 'SNAPPY', VERSIONS => '1', TTL => '15768000', MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', ENCODE_ON_DISK => 'true', IN_MEMORY => 'false', BLOCKCACHE => 'false'}, 
                {NAME => 'social', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROWCOL', REPLICATION_SCOPE => '0', COMPRESSION => 'SNAPPY', VERSIONS => '1', TTL => '15768000', MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', ENCODE_ON_DISK => 'true', IN_MEMORY => 'false', BLOCKCACHE => 'false'}
            ]
        }

3）清空表：truncate ‘lmj_test’

4）刪除表：

        分兩步，首先disable 'lmj_test'，然后drop 'lmj_test'

5）修改表結構：先disable后enable

        alter 't1', {NAME => 'f1'}, {NAME => 'f2', METHOD => 'delete'}
        例如：修改表test1的cf的TTL為180天
            hbase(main)> disable 'test1'
            hbase(main)> alter 'test1',{NAME=>'body',TTL=>'15552000'},{NAME=>'meta', TTL=>'15552000'}
            hbase(main)> enable 'test1'

6）對表中記錄的操作（4種行操作）

    put 增加一行
        語法：put <table>,<rowkey>,<family:column>,<value>,<timestamp>
        其中，timestamp可以系統默認，也可以自己設定，如

         put 't1', 'r1', 'c1', 'value', ts1
         put 'lmj_test','00001','adn:adn_3','aaa',1432483200000
         put 'lmj_test','00001','fixeddim:appcategory_1','1',1432483200000
         put 'lmj_test','00001','fixeddim:interest_15','100',1432483200000

    get查詢對應數據(可以指定行、列族、列、版本)
        get 'lmj_test','000000104257464',{TIMESTAMP=>1432483200000}

    delete 刪除數據
        刪除指定行中指定列：
            delete <table>, <rowkey>,  <family:column> , <timestamp>(必須指定列名，刪除其所有版本數據)
            delete 'lmj_test','000000104257464','f1:col1'
        刪除整行數據（可不指定列名）：
            deleteall <table>, <rowkey>,  <family:column> , <timestamp>
            deleteall 'lmj_test','000000104257464'

    scan 掃描全表，指定過濾條件，返回對應行
        scan 'lxw_hbase', {LIMIT => 1}
            其他條件繼續添加在大括號中
    以上4個操作類是 org.apache.hadoop.hbase.client的子類，參考官網API查看詳細信息

    count統計表中記錄數
         count 'lxw_hbase', {INTERVAL => 100, CACHE => 500}
         #每100條顯示一次，緩存區為500

7）表操作權限

    給用戶分配對每個表的操作權限，有RWXCA五種，對應READ, WRITE, EXEC, CREATE, ADMIN
    grant 'liu_mja','RW','lxw_hbase'    #分配給用戶liu_mja表lxw_hbase的讀寫權限
    還可以 查看權限
        user_permission 'lxw_hbase'
    收回權限
        revoke 'liu_mja','lxw_hbase'

8）命名空間

    關系數據庫系統中，命名空間namespace是表的邏輯分組,同一組中的表有類似的用途。
    以下引自：
    （http://blog.csdn.net/u010967382/article/details/37878701?utm_source=tuicool&utm_medium=referral）

    hbase的表也有命名空間的管理方式，命名空間的概念為即將到來的多租戶特性打下基礎：
        配額管理（ Quota Management (HBASE-8410)）：限制一個namespace可以使用的資源，資源包括region和table等； 
        命名空間安全管理（ Namespace Security Administration (HBASE-9206)）：提供了另一個層面的多租戶安全管理； 
        Region服務器組（Region server groups (HBASE-6721)）：一個命名空間或一張表，可以被固定到一組 regionservers上，從而保證了數據隔離性。 

    命名空間可以被創建、移除、修改。
    建表時可以指定命名空間，格式如下：<namespace>:<table>
    #Create a namespace
    create_namespace 'my_ns'

    #create my_table in my_ns namespace
    create 'my_ns:my_table', 'fam'

    #drop namespace
    drop_namespace 'my_ns'

    #alter namespace
    alter_namespace 'my_ns', {METHOD => 'set', 'PROPERTY_NAME' => 'PROPERTY_VALUE'}

    預定義的命名空間：
        有兩個系統內置的預定義命名空間
        hbase   系統命名空間，用於包含hbase的內部表 
        default 所有未指定命名空間的表都自動進入該命名空間
    使用默認的命名空間
        #namespace=default and table qualifier=bar
        create 'bar', 'fam'
    指定命名空間
        #namespace=foo and table qualifier=bar
        create 'foo:bar', 'fam'

hbase原理及時間戳管理介紹

分布式的、面向列的開源數據庫
hdfs文件存儲
MR處理數據
zookeeper做協同服務

hbase 表

數據以表存儲
 表含行、列，列分為列簇（family）

如圖，
hbase數據存儲格式
key1,key2,key3是三條記錄的唯一row key值，
column-family1,column-family2,column-family3是三個列族
每個列族下包括幾列，如列族 column-family1包括兩列column1和column2

  row這個維度用於region切分
   column則不用於分片，和row不同的是，一個row中多個columns的put或者delete操作是一個原子事務（同一個原子事務中不能同時put和 delete）
   Row key和column key(HBase中也稱為qualifier)是bytes類型，而時間維度的key則是long integer類型，典型使用 java.util.Date.getTime()或者System.currentTimeMillis()來做為時間維度的key。
 唯一的確定一個cell數據：由row key1、column-family1、column1找到值集，值集按時間戳t排列，按有效期取得每個對應時間的值t1:abc,t2:gdxdf
   每個cell的值可能包含多個版本，以timestamp索引，倒序排列，默認為最近一個版本，時間戳最大

 (1) Row Key：nosql數據庫中記錄的主鍵，在 hbase內部保存為字節數組（字典序排列存儲），  任意字符串(最大長度是 64KB）。讀有位置相關性，經常一起讀的行要放到一起存儲。
       注意：int類型數據的字典序是1,10,100,118,11,12,128,15,16。恢復成int數值的自然序，在行鍵的左側全部填充0(左填充0)。

 (2)  列族 column family：是schema的一部分(而列不是)，必須在用表前先定義。列名以列族為前綴，
  create 'test','cf'
    put 'test','001','cf:c1','a1',1432483200000
    put 'test','002','cf:c2','a2'
    put 'test','001','cf2:c1','a1',1432483200000    報錯ERROR: Unknown column family! Valid column names: cf:*

 (3) cell: 無類型，全部存儲為字節碼
 (4)  時間戳 timestamp管理（多版本數據有效期設置）
     每個cell的值可能包含多個版本，以timestamp索引，倒序排列（最近數據在最前面，默認取最近的數據）。時間戳的類型是 64 位整型。時間戳可以自動生成，也可以自己設定。避免數據版本沖突則時間戳必須具有唯一性。
      版本具有有效期，超過有效期則刪除。有兩種方式回收版本，稱為 GC（垃圾收集）
            列值版本的保存數量限制，通過兩種方式設置
1， version設置保留版本數。超過則刪除最老的，
  創建Column Family時通過HColumnDescriptor.setMaxVersions(int versions)設置，這是Column Family級別，設置是即時生效，讀取時讀不了，但物理刪除還是需要等到major compact操作中執行。設置為1只保留一個
2，TTL(Time To Live)設置保留時間。超過TTL則刪除，默認是forever。
通過 HColumnDescriptor.setTimeToLive(int seconds)可以設置TTL。讀操作如Get/Scan等是即時生效，但物理清除要等到major compact。一行row中所有cell的TTL都失效，則刪除整行，HBase不顯示建立或刪除行，行中cell有值且有效，行就存在。

注意，version版本控制中，major compact不進行，則刪除最近版本后，失效版本可以重新恢復為有效值

put的時間戳
默認使用的是currentTimeMillis。應用也可以使用自定義的值來做為每個列的 timestamp，只需要是一個long integer的值即可，不一定是時間
而get默認返回timestamp最大值的數據
delete的時間戳
1. 刪除某個timestamp之前所有老版本
（指定timestamp比row中最新的版本大，則相當於刪除整行，不是立即刪除元數據，而是等到major compact時）
2. 刪除某個timstamp點的版本

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【hbase】——Java操作Hbase進行建表、刪表以及對數據進行增刪改查，條件查詢 Java操作Hbase進行建表、刪表以及對數據進行增刪改查，條件查詢 Hbase（二）hbase建表 HBase 清空表數據 hbase之shell建表不成功 Hbase shell操作表 HBase命令(三) -- 增刪改查 flask單表ORM操作增刪改查 MySQL之單表（增刪改查）+ 基本命令 Mybatis實現單表增刪改查操作