Spark SQL 編程初級實踐1-Spark SQL 基本操作


Spark SQL 基本操作
將下列 JSON 格式數據復制到 Linux 系統中,並保存命名為 employee.json。

{ "id":1 , "name":" Ella" , "age":36 }
{ "id":2, "name":"Bob","age":29 }
{ "id":3 , "name":"Jack","age":29 }
{ "id":4 , "name":"Jim","age":28 }
{ "id":4 , "name":"Jim","age":28 }
{ "id":5 , "name":"Damon" }
{ "id":5 , "name":"Damon" }

寫入/usr/local/sparkdata文件里,命名為employee.json

然后為 employee.json 創建 DataFrame

創建DataFrame:

 (1)查詢所有數據:

利用DataFrame的show()方法:df.show()

 (2)查詢所有數據並去除重復的數據:

利用distinct()方法去重:df.distinct().show()

 (3)查詢所有數據打印時去除id字段:

利用drop()方法去除字段:df.drop("id").show()

 (4)篩選出sge>30的記錄:

利用filter()方法篩選數據:df.filter(df(“age”>30)).show()

 (5)將數組按age分組:

利用groupBy()方法分組:df.groupBy("age")

 (6)將數據按 name 升序排列:
利用sort()方法排序:df.sort(df("name").asc).show()

 (7)取出前 3 行數據:
df.head(3)

 (8)查詢所有記錄的name列,並為其取名為username:

df.select(df("name")as("username")).show()

 (9)查詢年齡age的平均值:

df.agg("age"->"avg").show()

 (10) 查詢年齡 age 的最小值:
df.agg("age"->"min").show()

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM