在spark dataFrame数据结构里面使用sql语句查询数据

（因为是RDD和dataFrame数据是只读的，所以不能做修改，删除操作。）

首先将文本数据转换为DataFrame数据格式

有两种将RDD转换为Dataframe的形式

利用反射机制推断RDD模式
使用编程方式定义RDD模式

这里直接读取json文件并转换为dataFrame结构


from pyspark.sql import SparkSession

spark=SparkSession.builder.getOrCreate()
df = spark.read.json("/user/hadoop/data.json")

df.createOrReplaceTempView("data")
dataDF = spark.sql("select title from data where title like '%中国%'").show()

查看data表中的所有title

select * from data

查看data表中，title包含字符串‘中国’

select title from data where title like '%中国%'

查看data表中，country 的值（去重）

SELECT DISTINCT country FROM data

查看平均值

spark.sql("select AVG(id) from data").show()

累加

spark.sql("select COUNT(id) from data").show()

统计有多少行数据

spark.sql("select COUNT(*) AS nums from data").show()

查看id=1的第一条数据的name值

spark.sql("select FIRST(name) AS name from data where id=1").show()

类似使用的函数：LAST MAX MIN SUM

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 SQL常用语句 sql注入常用语句 sql常用语句及日期格式 T-Sql常用语句 SQL常用语句大全 SQL常用语句和函数 sql常用语句及日期格式 SQL Server 常用语句 mysql sql常用语句大全 SQL server 常用语句