Spark寫入HBase（Bulk方式）

本文轉載自查看原文 2017-05-08 11:52 3938 Spark/ HBase

在使用Spark時經常需要把數據落入HBase中，如果使用普通的Java API，寫入會速度很慢。還好Spark提供了Bulk寫入方式的接口。那么Bulk寫入與普通寫入相比有什么優勢呢？

BulkLoad不會寫WAL，也不會產生flush以及split。
如果我們大量調用PUT接口插入數據，可能會導致大量的GC操作。除了影響性能之外，嚴重時甚至可能會對HBase節點的穩定性造成影響。但是采用Bulk就不會有這個顧慮。
過程中沒有大量的接口調用消耗性能

下面給出完整代碼：

import org.apache.hadoop.hbase.client.{Put, Result}
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.mapreduce.Job
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.hadoop.conf.Configuration

/**
  * Created by shaonian
  */
object HBaseBulk {

  def main(args: Array[String]): Unit = {

　　val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Bulk")
　　val sc = new SparkContext(sparkConf)

　　val conf = new Configuration()
　　conf.set("hbase.zookeeper.quorum", "zk1,zk2,zk3")
　　conf.set("hbase.zookeeper.property.clientPort", "2181")
　　conf.set(TableOutputFormat.OUTPUT_TABLE, "bulktest")
　　val job = Job.getInstance(conf)
　　job.setOutputKeyClass(classOf[ImmutableBytesWritable])
　　job.setOutputValueClass(classOf[Result])
　　job.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])

　　val init = sc.makeRDD(Array("1,james,32", "2,lebron,30", "3,harden,28"))
　　val rdd = init.map(_.split(",")).map(arr => {
　　  val put = new Put(Bytes.toBytes(arr(0)))
　　  put.addColumn(Bytes.toBytes("f"), Bytes.toBytes("name"), Bytes.toBytes(arr(1)))
　　  put.addColumn(Bytes.toBytes("f"), Bytes.toBytes("age"), Bytes.toBytes(arr(2).toInt))
　　  (new ImmutableBytesWritable, put)
　　})
　　rdd.saveAsNewAPIHadoopDataset(job.getConfiguration)
　　sc.stop()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MapReduce和Spark寫入Hbase多表總結 Spark Streaming實時寫入數據到HBase Spark如何寫入HBase/Redis/MySQL/Kafka Spark讀寫Hbase的二種方式對比 Spark讀寫Hbase的二種方式對比 kerberos環境下spark消費kafka寫入到Hbase Spark入Hbase的四種方式效率對比 spark實現BulkLoad批量加載方式導入Hbase數據 json數據寫入hbase storm寫入hbase