1.讀文件
通過 sc.textFile(“file://") 方法來讀取文件到rdd中。
val lines = sc.textFile("file://")//文件地址或者HDFS文件路徑
本地地址
"file:///home/hadoop/spark-1.6.0-bin-hadoop2.6/examples/src/main/resources/people.json"
HDFS文件地址
"hdfs://112.74.21.122:9000/user/hive/warehouse/hive_test"
2.保存文件
通過 sc.saveAsTextFile("file://") 把 rdd 內容保存到文件
rdd.saveAsTextFile("file:///home/writeout.txt");//把rdd寫入/home/writeout.txt
但是我們打開/home文件夾,發現writeout並不是txt文件而是一個文件夾,我們打開文件夾,結構如下
我們保存錯了嘛?沒有,這時正常的。part-00000代表的是分區,如果有多個分區,會有多個part-xxxxxx的文件。
如果我們要再次讀取這個保存的文件並不需要一個一個分區讀取,直接讀取就可以了,spark會自動加載所有分區數據。
val rdd = sc.textFile("file:///home/writeout/part-00000");//我們並不用這樣一個一個讀取 val rdd = sc.textFile("file:///home/writeout.txt");//直接這樣讀取,就會自動把所有分區數據加載到rdd中
3.JSON數據解析
(1)讀取JSON格式文件
直接用sc.textFile(“file://") 來讀取.json文件即可
(2)JSON
Scala中有一個自帶的JSON庫 scala.util.parsing.json.JSON 可以實現對JSON數據解析。
通過調用 JSON.parseFull(jsonString:String) 函數對輸入的JSON字符串進行解析。
如果解析成功則返回一個 Some( map:Map[String,Any] ) ,失敗則返回None
示例:
文件內容
我們看到每個{...}中為一個json格式的數據,一個json文件包含若干個json格式的數據。
我們解析這個json文件的內容
1.編寫程序
import org.apache.spark._ import scala.util.parsing.json.JSON object JSONApp { def main(args:Array[String]): Unit ={ //初始化配置:設置主機名和程序主類的名字 val conf = new SparkConf().setMaster("local").setAppName("JSONApp"); //通過conf來創建sparkcontext val sc = new SparkContext(conf); val inputFile = "file:///usr/local/spark/examples/src/main/resources/people.json"//讀取json文件 val jsonStr = sc.textFile(inputFile); val result = jsonStr.map(s => JSON.parseFull(s));//逐個JSON字符串解析 result.foreach( { r => r match { case Some(map:Map[String,Any]) => println(map) case None => println("parsing failed!") case other => println("unknown data structure" + other) } } ); } }
2.將整個程序打包成jar包
3.通過spark-submit運行程序
4.查看結果
運行程序后,可以在屏幕上看到大量的輸出信息,找到如下的信息,解析成功。