Spark之json數據處理

本文轉載自查看原文 2018-01-09 17:34 5536 spark/ hadoop

-- 默認情況下，SparkContext對象在spark-shell啟動時用namesc初始化。使用以下命令創建SQLContext。
val sqlcontext = new org.apache.spark.sql.SQLContext(sc)
-- employee.json-將此文件放在currentscala>指針所在的目錄中。
{
   {"id" : "1201", "name" : "satish", "age" : "25"}
   {"id" : "1202", "name" : "krishna", "age" : "28"}
   {"id" : "1203", "name" : "amith", "age" : "39"}
   {"id" : "1204", "name" : "javed", "age" : "23"}
   {"id" : "1205", "name" : "prudvi", "age" : "23"}
}
-- 讀取JSON文檔namedemployee.json。 數據顯示為帶有字段id，name和age的表。
val dfs = sqlContext.read.json("/root/wangbin/employee.json")
-- 顯示數據
dfs.show()
-- 查看數據結構
dfs.printSchema()
-- 查看某一列
dfs.select("name").show()
-- 查找年齡大於23（age> 23）的雇員。
dfs.filter(dfs("age") > 23).show()
-- 計算同一年齡的員工人數。
dfs.groupBy("age").count().show()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark SQL JSON數據處理 JSON數據處理 Java JSON數據處理 SpringBoot——json數據處理 python ----json數據處理 Unity之Json數據處理基於地震數據的Spark數據處理與分析 NoSQL-流式數據處理與Spark Spark大數據處理之從WordCount看Spark大數據處理的核心機制（2） Spark大數據處理之從WordCount看Spark大數據處理的核心機制（1）