原文:大数据基础---SparkSQL常用聚合函数

一 简单聚合 . 数据准备 注:emp.json 可以从本仓库的resources 目录下载。 . count . countDistinct . approx count distinct 通常在使用大型数据集时,你可能关注的只是近似值而不是准确值,这时可以使用 approx count distinct 函数,并可以使用第二个参数指定最大允许误差。 . first amp last 获取 Da ...

2020-06-26 17:22 0 1699 推荐指数:

查看详情

大数据基础---SparkSQL外部数据

一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text ...

Sat Jun 27 00:52:00 CST 2020 0 553
大数据基础---SparkSQL_Dataset和DataFrame简介

一、Spark SQL简介 Spark SQL 是 Spark 中的一个子模块,主要用于操作结构化数据。它具有以下特点: 能够将 SQL 查询与 Spark 程序无缝混合,允许您使用 SQL 或 DataFrame API 对结构化数据进行查询; 支持多种开发语言; 支持多达上百 ...

Fri Jun 26 18:54:00 CST 2020 0 617
大数据SparkSql学习笔记

第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和 DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成 ...

Mon Feb 25 19:55:00 CST 2019 0 735
6大数据实战系列-sparkSql实战

,并且SparkSql支持多种数据源操作包括hive、hdfs、rdd、json、mysql,本文先讲解hive、hdf ...

Sun Oct 22 19:42:00 CST 2017 0 1276
大数据SparkSql 连接查询中的谓词下推处理 (一)

本文首发于 vivo互联网技术 微信公众号 https://mp.weixin.qq.com/s/YPN85WBNcnhk8xKjTPTa2g 作者:李勇 目录: 1.SparkSql 2.连接查询和连接条件 3.谓词下推 4.内连接查询中的谓词下推规则 4.1.Join ...

Wed May 15 00:09:00 CST 2019 0 858
SparkSQL大数据实战:揭开Join的神秘面纱

本文来自 网易云社区 。 Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景。 Join背景介绍 Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可以分为简单操作(过滤 ...

Fri Jun 01 22:32:00 CST 2018 0 1578
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM