HBase的二級索引

本文轉載自查看原文 2019-09-12 21:50 1016 Hbase

使用HBase存儲中國好聲音數據的案例，業務描述如下：

為了能高效的查詢到我們需要的數據，我們在RowKey的設計上下了不少功夫，因為過濾RowKey或者根據RowKey查詢數據的效率是最高的，我們的RowKey的設計是：UserID + CreateTime + FileID，那么我們在HBase中的數據格式如下：

每一行數據中包含兩個Column：f:c和f:n

我們在查詢的時候還是用了SingleColumnValueFilter這個Filter來過濾單個的Column的Value的值，我們說如果在海量數據的時候使用這個SingleColumnValueFilter來過濾數據的話是非常耗時的事情，那么現在問題來了：

問題：

假設針對這張sound的表，我們需要查詢包含“中國好聲音”以及包含“綜藝”的數據，也就是說我們的業務查詢是：

2個條件同時輸入find(“中國好聲音”，“綜藝”)

這個時候我們該怎么查詢呢？

解決方案：

首先，我們現在的查詢條件中沒有對RowKey的過濾了，如果我們直接使用SingleColumnValueFilter這個Filter來過濾查詢數據的話是可以達到目的，但是非常的耗時，所以我們不能使用這種方式

那么，我們現在就使用HBase中的二級索引來解決這個問題，我們先不解釋二級索引是什么，我們先看下解決上面問題的過程，如下：

第一步：創建兩張HBase表

第一張HBase表的RowKey是數據中的Name字段的值，這張表可以有不定數量的Column，每一個Column的值就是sound表的RowKey(和Name對應的RowKey)，這張表我們稱之為name_indexer表。create 'name_indexer','f'

第二張HBase表的RowKey是數據中的Category字段的值，這張表可以有不定數量的Column，每一個Column的值就是sound表的RowKey(和Category對應的RowKey)，這張表我們稱之為category_indexer表。create 'category_indexer','f'

第二步：將sound中的數據導入到name_indexer和category_indexer兩張表中

使用Spark程序來實現索引表數據的導入，

import org.apache.hadoop.hbase.client.{ConnectionFactory, Put, Scan}
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.hbase.{HBaseConfiguration, TableName}
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession

/**
  *  使用Spark來建立HBase中表sound的二級索引
  */
object MyIndexBuilder {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .appName("MyIndexBuilder")
      .master("local")
      .getOrCreate()

    // 1、創建HBaseContext
    val configuration = HBaseConfiguration.create()
    configuration.set("hbase.zookeeper.quorum", "master,slave1,slave2")
    val hBaseContext = new HBaseContext(spark.sparkContext, configuration)

    // 2、讀取HBase表sound中的f:n和f:c兩個列的值以及他們對應的rowKey的值
    // 並且需要區分開是哪一個列的值
    val soundRDD = hBaseContext.hbaseRDD(TableName.valueOf("sound"), new Scan())
    val indexerRDD: RDD[((String, Array[Byte]), ImmutableBytesWritable)] = soundRDD.flatMap { case (byteRowKey, result) =>
      val nameValue = result.getValue(Bytes.toBytes("f"), Bytes.toBytes("n"))
      val categoryValue = result.getValue(Bytes.toBytes("f"), Bytes.toBytes("c"))
      // 區分開是哪一個列的值，使用key來區分
      // 返回key是(tableName，列值), value是這個列對應的rowKey的值
      Seq((("name_indexer", nameValue), byteRowKey), (("category_indexer", categoryValue), byteRowKey))
    }

    // 3、按照key進行分組，拿到相同列值對應的所有的rowKeys（因為在原表sound中多個rowKey的值可能會對應着相同的列值）
    val groupedIndexerRDD: RDD[((String, Array[Byte]), Iterable[ImmutableBytesWritable])] = indexerRDD.groupByKey()

    // 4、將不同的列值以及對應的rowKeys寫入到相對應的indexer表中
    groupedIndexerRDD.foreachPartition { partitionIterator =>
      val conf = HBaseConfiguration.create()
      conf.set("hbase.zookeeper.quorum", "master,slave1,slave2")
      val conn = ConnectionFactory.createConnection(conf)

      val nameIndexerTable = conn.getTable(TableName.valueOf("name_indexer"))
      val categoryIndexerTable = conn.getTable(TableName.valueOf("category_indexer"))

      try {
        val nameIndexerTablePuts = new util.ArrayList[Put]()
        val categoryIndexerTablePuts = new util.ArrayList[Put]()
        partitionIterator.map { case ((tableName, indexerValue), rowKeys) =>
          val put = new Put(indexerValue) // 將列值作為索引表的rowKey
          rowKeys.foreach(rowKey => {
            put.addColumn(Bytes.toBytes("f"), null, rowKey.get())
          })
          if (tableName.equals("name_indexer")) {
            nameIndexerTablePuts.add(put) // 需要寫入到表name_indexer中的數據
          } else {
            categoryIndexerTablePuts.add(put) // 需要寫入到表category_indexer中的數據
          }
        }
        nameIndexerTable.put(nameIndexerTablePuts)
        categoryIndexerTable.put(categoryIndexerTablePuts)
      } finally {
        nameIndexerTable.close()
        categoryIndexerTable.close()
        conn.close()
      }
    }

    spark.stop()
  }
}

第三步：查詢結果

我們先從name_indexer這張表中按照RowKey查詢屬於“中國好聲音”的記錄，這些記錄中的所有的列的值就是需要在sound中查詢的RowKey的值

然后從category_indexer這張表中按照RowKey查詢屬於“綜藝”的記錄，這些記錄中的所有的列的值就是需要在sound中查詢的RowKey的值

最后將上面兩步查詢出來的結果做一個合並，就是將查詢出來的結果做一次去重，得到了所有在sound中符合需求的RowKey，然后在根據這些RowKey去sound表中查詢相應的數據

我們每一步查詢都是根據HBase中的一級索引RowKey來查詢的，所以查詢速度會非常的快

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.CellUtil;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.filter.CompareFilter;
import org.apache.hadoop.hbase.filter.RowFilter;
import org.apache.hadoop.hbase.filter.SubstringComparator;
import org.apache.hadoop.hbase.util.Bytes;

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Set;

public class SecondaryIndexSearcher {
    public static void main(String[] args) throws IOException {
        Configuration config = HBaseConfiguration.create();
        config.set("hbase.zookeeper.quorum", "master,slave1,slave2");
        try(Connection connection = ConnectionFactory.createConnection(config)) {
            Table nameIndexer = connection.getTable(TableName.valueOf("name_indexer"));
            Table categoryIndexer = connection.getTable(TableName.valueOf("category_indexer"));
            Table sound = connection.getTable(TableName.valueOf("sound"));

            // 1、先從表name_indexer中找到rowKey包含“中國好聲音”對應的所有的column值
            Scan nameIndexerScan = new Scan();
            SubstringComparator nameComp = new SubstringComparator("中國好聲音");
            RowFilter nameRowFilter = new RowFilter(CompareFilter.CompareOp.EQUAL, nameComp);
            nameIndexerScan.setFilter(nameRowFilter);

            Set<String> soundRowKeySetOne = new HashSet<>();
            ResultScanner rsOne = nameIndexer.getScanner(nameIndexerScan);
            try {
                for (Result r = rsOne.next(); r != null; r = rsOne.next()) {
                    for (Cell cell : r.listCells()) {
                        soundRowKeySetOne.add(Bytes.toString(CellUtil.cloneValue(cell)));
                    }
                }
            } finally {
                rsOne.close();  // always close the ResultScanner!
            }

            // 2、再從表category_indexer中找到rowKey包含“綜藝”對應的所有的column值
            Scan categoryIndexerScan = new Scan();
            SubstringComparator categoryComp = new SubstringComparator("綜藝");
            RowFilter categoryRowFilter = new RowFilter(CompareFilter.CompareOp.EQUAL, categoryComp);
            nameIndexerScan.setFilter(categoryRowFilter);

            Set<String> soundRowKeySetTwo = new HashSet<>();
            ResultScanner rsTwo = categoryIndexer.getScanner(categoryIndexerScan);
            try {
                for (Result r = rsTwo.next(); r != null; r = rsTwo.next()) {
                    for (Cell cell : r.listCells()) {
                        soundRowKeySetTwo.add(Bytes.toString(CellUtil.cloneValue(cell)));
                    }
                }
            } finally {
                rsTwo.close();  // always close the ResultScanner!
            }

            // 3、合並並去重上面兩步查詢的結果
            soundRowKeySetOne.addAll(soundRowKeySetTwo);

            // 4、根據soundRowKeySetOne中所有的rowKeys去sound表中查詢數據
            List<Get> gets = new ArrayList<>();
            for (String rowKey : soundRowKeySetOne) {
                Get get = new Get(Bytes.toBytes(rowKey));
                gets.add(get);
            }
            Result[] results = sound.get(gets);
            for (Result result : results) {
                for (Cell cell : result.listCells()) {
                    System.out.println(Bytes.toString(CellUtil.cloneRow(cell)) + "===> " +
                            Bytes.toString(CellUtil.cloneFamily(cell)) + ":" +
                            Bytes.toString(CellUtil.cloneQualifier(cell)) + "{" +
                            Bytes.toString(CellUtil.cloneValue(cell)) + "}");
                }
            }
        }
    }
}

結論：

那么表name_indexer和category_indexer中的RowKey就是我們解決問題的二級索引，

所以二級索引的本質就是：建立各列值與行鍵之間的映射關系

最后，我們需要知道創建HBase二級索引的方式

1、Spark來實現二級索引的建立

我們前面使用的是Spark來實現二級索引的建立，但是這種方式適用於離線批處理，這些二級索引是每天或者每段時間執行一次的建立的

2、使用HBase的協處理器(coprocessor)

對於如果數據是實時更新的話，則這種離線批處理的方式是不行的，這個時候我們可以使用HBase的協處理器(coprocessor)

HBase的協處理器(Coprocessor)的介紹可以參考： https://www.cnblogs.com/small-k/p/9648453.html

3、HBase + Solr其實也是一個二級索引實現，只不過是把二級索引存儲在Solr中

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hbase創建二級索引 HBase二級索引的設計 [轉]HBASE 二級索引 (轉)HBase二級索引與Join HBase二級索引的設計(案例講解) 基於Solr實現HBase的二級索引 HBase二級索引方案總結 Hbase 學習（九）華為二級索引（原理） Hbase(三) hbase協處理器與二級索引 HBase 二級索引與Coprocessor協處理器