【spark】文件讀寫和JSON數據解析

本文轉載自查看原文 2018-05-08 10:46 15322 spark

1.讀文件

通過 sc.textFile(“file://") 方法來讀取文件到rdd中。

 val lines = sc.textFile("file://")//文件地址或者HDFS文件路徑

本地地址

"file:///home/hadoop/spark-1.6.0-bin-hadoop2.6/examples/src/main/resources/people.json"

HDFS文件地址

"hdfs://112.74.21.122:9000/user/hive/warehouse/hive_test"

2.保存文件

通過 sc.saveAsTextFile("file://") 把 rdd 內容保存到文件

rdd.saveAsTextFile("file:///home/writeout.txt");//把rdd寫入/home/writeout.txt

但是我們打開/home文件夾，發現writeout並不是txt文件而是一個文件夾，我們打開文件夾，結構如下

我們保存錯了嘛？沒有，這時正常的。part-00000代表的是分區，如果有多個分區，會有多個part-xxxxxx的文件。

如果我們要再次讀取這個保存的文件並不需要一個一個分區讀取，直接讀取就可以了，spark會自動加載所有分區數據。

val rdd = sc.textFile("file:///home/writeout/part-00000");//我們並不用這樣一個一個讀取
val rdd = sc.textFile("file:///home/writeout.txt");//直接這樣讀取，就會自動把所有分區數據加載到rdd中

3.JSON數據解析

（1）讀取JSON格式文件

　　直接用sc.textFile(“file://") 來讀取.json文件即可

（2）JSON

　　Scala中有一個自帶的JSON庫 scala.util.parsing.json.JSON 可以實現對JSON數據解析。

　　通過調用 JSON.parseFull(jsonString：String) 函數對輸入的JSON字符串進行解析。

　　如果解析成功則返回一個 Some( map：Map[String，Any] ) ,失敗則返回None

示例：

文件內容

我們看到每個{...}中為一個json格式的數據，一個json文件包含若干個json格式的數據。

我們解析這個json文件的內容

1.編寫程序

import org.apache.spark._
import scala.util.parsing.json.JSON
object JSONApp {
    def main(args:Array[String]): Unit ={
        //初始化配置：設置主機名和程序主類的名字
        val conf = new SparkConf().setMaster("local").setAppName("JSONApp");
        //通過conf來創建sparkcontext
        val sc = new SparkContext(conf);

        val inputFile = "file:///usr/local/spark/examples/src/main/resources/people.json"//讀取json文件
        val jsonStr = sc.textFile(inputFile);
        val result = jsonStr.map(s => JSON.parseFull(s));//逐個JSON字符串解析
        result.foreach(
            {
                r => r match {
                case Some(map:Map[String,Any]) => println(map)
                case None => println("parsing failed!")
                case other => println("unknown data structure" + other)
                }
            }
        );
    }
}

2.將整個程序打包成jar包

3.通過spark-submit運行程序

4.查看結果

運行程序后，可以在屏幕上看到大量的輸出信息，找到如下的信息，解析成功。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 C++解析Json，使用JsonCpp讀寫Json數據大數據實踐解析（下）：Spark的讀寫流程分析 SparkSQL讀寫外部數據源-json文件的讀寫 Spark SQL解析Json Spark解析json spark讀寫ES數據 Spark往Elasticsearch讀寫數據 spark- PySparkSQL之PySpark解析Json集合數據 Python讀寫Json文件 nodejs讀寫json文件