Spark SQL讀parquet文件及保存

本文轉載自查看原文 2017-10-12 15:20 4476 Spark

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.hive._

/**
  * Created by soyo on 17-10-12.
  */
case class Persons(name:String,age:Int)
case class Record(key: Int, value: String)

object rdd_to_dataframe_parquet {
  val warehouseLocation = "file:${system:user.dir}/spark-warehouse"
          val spark=SparkSession.builder().config("spark.sql.warehouse.dir",warehouseLocation).enableHiveSupport().getOrCreate()
          import spark.implicits._
  def main(args: Array[String]): Unit = {
        val df =spark.sparkContext.textFile("file:///home/soyo/桌面/spark編程測試數據/people.txt")
           .map(_.split(",")).map(x=>Person(x(0),x(1).trim.toInt)).toDF()
             df.write.parquet("file:///home/soyo/桌面/spark編程測試數據/people.parquet")
     val parquetFile=spark.read.parquet("file:///home/soyo/桌面/spark編程測試數據/people.parquet")
        parquetFile.createOrReplaceTempView("people")
      val result=spark.sql("select * from people")
    result.show()
spark.stop()

補充：需要多數據源整合查詢時：

val data=result1.union(result2)

data.createOrReplaceTempView("data") 之后執行后續查詢

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark SQL的Parquet那些事兒 Spark讀取parquet文件 Spark操作parquet文件 spark streaming 讀取kafka數據保存到parquet文件，redis存儲offset spark sql讀hbase spark SQL （四）數據源 Data Source----Parquet 文件的讀取與加載 spark-shell讀取parquet文件 Spark(四): Spark-sql 讀hbase Spark(四): Spark-sql 讀hbase 數據倉庫之 ORC/PARQUET等文件保存格式 & 導入方法