Structured Streaming 實戰案例讀取文本數據

本文轉載自查看原文 2019-09-11 00:31 386 Spark

1.1.1.讀取文本數據

spark應用可以監聽某一個目錄，而web服務在這個目錄上實時產生日志文件，這樣對於spark應用來說，日志文件就是實時數據

Structured Streaming支持的文件類型有text，csv，json，parquet

●准備工作

在people.json文件輸入如下數據:

{"name":"json","age":23,"hobby":"running"}

{"name":"charles","age":32,"hobby":"basketball"}

{"name":"tom","age":28,"hobby":"football"}

{"name":"lili","age":24,"hobby":"running"}

{"name":"bob","age":20,"hobby":"swimming"}

注意:文件必須是被移動到目錄中的，且文件名不能有特殊字符

●需求

接下里使用Structured Streaming統計年齡小於25歲的人群的愛好排行榜

●代碼演示：

import org.apache.spark.SparkContext
import org.apache.spark.sql.streaming.Trigger
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}
/**
  * {"name":"json","age":23,"hobby":"running"}
  * {"name":"charles","age":32,"hobby":"basketball"}
  * {"name":"tom","age":28,"hobby":"football"}
  * {"name":"lili","age":24,"hobby":"running"}
  * {"name":"bob","age":20,"hobby":"swimming"}
  * 統計年齡小於25歲的人群的愛好排行榜
  */
object WordCount2 {
  def main(args: Array[String]): Unit = {
    //1.創建SparkSession,因為StructuredStreaming的數據模型也是DataFrame/DataSet
    val spark: SparkSession = SparkSession.builder().master("local[*]").appName("SparkSQL").getOrCreate()
    val sc: SparkContext = spark.sparkContext
    sc.setLogLevel("WARN")
    val Schema: StructType = new StructType()
      .add("name","string")
      .add("age","integer")
      .add("hobby","string")
    //2.接收數據
    import spark.implicits._
    // Schema must be specified when creating a streaming source DataFrame.
    val dataDF: DataFrame = spark.readStream.schema(Schema).json("D:\\data\\spark\\data")
    //3.處理數據
    val result: Dataset[Row] = dataDF.filter($"age" < 25).groupBy("hobby").count().sort($"count".desc)
    //4.輸出結果
    result.writeStream
      .format("console")
      .outputMode("complete")
      .trigger(Trigger.ProcessingTime(0))
      .start()
      .awaitTermination()
  }
}

               
import org.apache.spark.SparkContext
import org.apache.spark.sql.streaming.Trigger
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}
/**
  * {"name":"json","age":23,"hobby":"running"}
  * {"name":"charles","age":32,"hobby":"basketball"}
  * {"name":"tom","age":28,"hobby":"football"}
  * {"name":"lili","age":24,"hobby":"running"}
  * {"name":"bob","age":20,"hobby":"swimming"}
  * 統計年齡小於25歲的人群的愛好排行榜
  */
object WordCount2 {
  def main(args: Array[String]): Unit = {
    //1.創建SparkSession,因為StructuredStreaming的數據模型也是DataFrame/DataSet
    val spark: SparkSession = SparkSession.builder().master("local[*]").appName("SparkSQL").getOrCreate()
    val sc: SparkContext = spark.sparkContext
    sc.setLogLevel("WARN")
    val Schema: StructType = new StructType()
      .add("name","string")
      .add("age","integer")
      .add("hobby","string")
    //2.接收數據
    import spark.implicits._
    // Schema must be specified when creating a streaming source DataFrame.
    val dataDF: DataFrame = spark.readStream.schema(Schema).json("D:\\data\\spark\\data")
    //3.處理數據
    val result: Dataset[Row] = dataDF.filter($"age" < 25).groupBy("hobby").count().sort($"count".desc)
    //4.輸出結果
    result.writeStream
      .format("console")
      .outputMode("complete")
      .trigger(Trigger.ProcessingTime(0))
      .start()
      .awaitTermination()
  }
}

代碼截圖：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python讀取文本文件數據 js讀取文本內容 Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十一）定制一個arvo格式文件發送到kafka的topic，通過Structured Streaming讀取kafka的數據 Flutter 復制文本讀取文本 bat 讀取文本內容用法 Pdfbox添加水印、讀取文本 Java讀取文本文件 InputStreamReader解決讀取文本中文亂碼 JavaScript 選擇文件並讀取文本 JS如何讀取文本的某一行?