spark 讀取hbase數據並轉化為dataFrame

本文轉載自查看原文 2016-09-07 22:06 7141 spark

最近兩天研究spark直接讀取hbase數據，並將其轉化為dataframe。之所以這么做，

1、公司的數據主要存儲在hbase之中

2、使用dataframe，更容易實現計算。

盡管hbase的官方已經提供了hbase-spark 接口，但是並未對外發布，而且目前的項目又有這方面的需求，且網上關於這么方面的參考比較少，

故貼出來，代碼如下，僅供參考

import org.apache.hadoop.hbase.client._
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.{TableName, HBaseConfiguration}
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkContext, SparkConf}

/**
  * Created by seagle on 6/28/16.
  */
object HBaseSpark {
  def main(args:Array[String]): Unit ={

    // 本地模式運行,便於測試
val sparkConf = new SparkConf().setMaster("local").setAppName("HBaseTest")

    // 創建hbase configuration
val hBaseConf = HBaseConfiguration.create()
    hBaseConf.set(TableInputFormat.INPUT_TABLE,"bmp_ali_customer")

    // 創建 spark context
val sc = new SparkContext(sparkConf)
    val sqlContext = new SQLContext(sc)
    import sqlContext.implicits._

    // 從數據源獲取數據
val hbaseRDD = sc.newAPIHadoopRDD(hBaseConf,classOf[TableInputFormat],classOf[ImmutableBytesWritable],classOf[Result])

    // 將數據映射為表  也就是將 RDD轉化為 dataframe schema
val shop = hbaseRDD.map(r=>(
      Bytes.toString(r._2.getValue(Bytes.toBytes("info"),Bytes.toBytes("customer_id"))),
      Bytes.toString(r._2.getValue(Bytes.toBytes("info"),Bytes.toBytes("create_id")))
      )).toDF("customer_id","create_id")

    shop.registerTempTable("shop")

    // 測試
val df2 = sqlContext.sql("SELECT customer_id FROM shop")

    df2.foreach(println)
  }

}

代碼能夠運行的前提是

1、 引用了 spark-sql  jar

2、配置了Hbase-site.xml ，並將其放在工程的根目錄下

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Series轉化為DataFrame數據 C#讀取json格式的文件，並轉化為對象 python .dcm文件讀取，並轉化為.jpg格式 Spark 讀取HBase數據 spark讀取hbase數據抓取東方財富可轉債數據JSON並轉化為數組 Spark:讀取mysql數據作為DataFrame java Spark 讀取hbase數據將圖片數據轉化為TFRecord格式與讀取 007.PGSQL-python讀取txt文件，將數據轉化為dataFrame,dataFrame數據插入到pgsql; dataframe去掉索引，指定列為索引；python讀取pgsql數據,讀取數據庫表導成excel