1 系统、软件以及前提约束

CentOS 7 64 工作站作者的机子ip是192.168.100.200，主机名为danji，请读者根据自己实际情况设置
已完成spark访问mysql
https://www.jianshu.com/p/2b4471c03fea
已完成spark访问Hive
https://www.jianshu.com/p/3965abe4d593
已安装hbase，并生成表和写入记录
https://www.jianshu.com/p/51fb48f7d1ea
作者生成的表为t1，列簇为f1，f1中的列包含name, age。请读者根据实际情况设置。
idea 2018.1
为去除权限对操作的影响，所有操作都以root进行，确保hbase启动，spark启动，hadoop启动。

2 操作

1 在win10的idea中创建一个sbt项目
2 修改其中的build.sbt

name := "sbt-spark"
version := "0.1"
scalaVersion := "2.11.8"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"
libraryDependencies += "org.apache.hbase" % "hbase-client" % "1.1.5"
libraryDependencies += "org.apache.hbase" % "hbase-common" % "1.1.5"
libraryDependencies += "org.apache.hbase" % "hbase-server" % "1.1.5"

需要等待jar包下载完毕。

3 在src/main/scala中新建一个SparkOprHbase

import org.apache.hadoop.hbase._
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.{SparkConf, SparkContext}

object SparkOperateHBase {
  def main(args: Array[String]) {
    val conf = HBaseConfiguration.create()
    val sc = new SparkContext(new SparkConf())
    //设置查询的表名
    conf.set(TableInputFormat.INPUT_TABLE, "t1")
    val stuRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat],
      classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
      classOf[org.apache.hadoop.hbase.client.Result])
    stuRDD.cache()
    //遍历输出
    stuRDD.foreach({ case (_,result) =>
      val key = Bytes.toString(result.getRow)
      val name = Bytes.toString(result.getValue("f1".getBytes,"name".getBytes))
      val age = Bytes.toString(result.getValue("f1".getBytes,"age".getBytes))
      println("Row key:"+key+" Name:"+name+" Age:"+age)
    })
  }
}

4 使用sbt打包，生成sbt-spark_2.11-0.1.jar，并上传到linux的/root目录下
5 使用xshell登录到linux，拷贝jar包

cd /root/spark-2.2.1-bin-hadoop2.7/jars
mkdir hbase
cd hbase
cp /root/hbase-1.2.6/lib/hbase-*.jar .
cp /root/hbase-1.2.6/lib/guava-12.0.1.jar .
pc /root/hbase-1.2.6/lib/htrace-core-3.1.0-incubating.jar  .
cp /root/hbase-1.2.6/lib/htrace-core-3.1.0-incubating.jar  .
cp /root/hbase-1.2.6/lib/protobuf-java-2.5.0.jar .
cp /root/hbase-1.2.6/lib/metrics-core-2.2.0.jar .

6 提交任务到spark

cd /root/spark-2.2.1-bin-hadoop2.7/bin
./spark-submit --driver-class-path /root/spark-2.2.1-bin-hadoop2.7/jars/hbase/*:/root/hbase-1.2.6/conf/* --class "SparkOperateHBase" /root/sbt-spark_2.11-0.1.jar

等待一段时间，查看打印结果。
以上就是spark访问hbase的过程。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 使用Spark的newAPIHadoopRDD接口访问有kerberos认证的hbase Spark访问与HBase关联的Hive表 HBase调优案例（三）——Spark访问HBase慢【hbase】使用thrift with python 访问HBase spark + hbase spark]使用spark进行hbase数据分析 Spark：spark读取hbase 使用spark访问elasticsearch的数据 Hbase学习：使用C#通过Thrift来对Hbase进行访问使用spark访问hive错误记录