-- 默認情況下,SparkContext對象在spark-shell啟動時用namesc初始化。使用以下命令創建SQLContext。 val sqlcontext = new org.apache.spark.sql.SQLContext(sc) -- employee.json-將此文件放在currentscala>指針所在的目錄中。 { {"id" : "1201", "name" : "satish", "age" : "25"} {"id" : "1202", "name" : "krishna", "age" : "28"} {"id" : "1203", "name" : "amith", "age" : "39"} {"id" : "1204", "name" : "javed", "age" : "23"} {"id" : "1205", "name" : "prudvi", "age" : "23"} } -- 讀取JSON文檔namedemployee.json。 數據顯示為帶有字段id,name和age的表。 val dfs = sqlContext.read.json("/root/wangbin/employee.json") -- 顯示數據 dfs.show() -- 查看數據結構 dfs.printSchema() -- 查看某一列 dfs.select("name").show() -- 查找年齡大於23(age> 23)的雇員。 dfs.filter(dfs("age") > 23).show() -- 計算同一年齡的員工人數。 dfs.groupBy("age").count().show()