原文:sparksql系列(二) sparksql常规操作

import java.util.Arrays import org.apache.spark.SparkConfimport org.apache.spark.api.java.JavaSparkContextimport org.apache.spark.sql. DataFrame, Row, SparkSession, functions import org.apache.spark.s ...

2019-10-13 21:24 0 299 推荐指数:

查看详情

sparksql系列(八) sparksql优化

公司数仓迁移完成了,现在所有的数据一天6T的用户行为数据全部由一个spark脚本,关联用户属性数据生成最终想要的数据。里面让我感触最深的是资源的使用spark优化,再此记录一篇关于sparksql优化的文章,专门总结以下现在使用的资源优化及以前使用的资源优化。 一:资源优化 ...

Mon Mar 30 06:10:00 CST 2020 0 700
sparksql系列(四) sparksql 操作数据库

一:SparkSql操作mysql 老规矩:先抽出来公共的方法: import java.util.Arrays import org.apache.spark.SparkConfimport org.apache.spark.api.java.JavaSparkContextimport ...

Sun Oct 20 21:23:00 CST 2019 0 592
SparkSQL

Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 Hive SQL是转 ...

Thu Apr 11 22:04:00 CST 2019 0 560
sparksql系列(六) SparkSql中UDF、UDAF、UDTF

RDD没有可以这种可以注册的方法。 在使用sparksql过程中发现UDF还是有点用的所以,还是单独写一篇博客记录一下。 UDF=》一个输入一个输出。相当于map UDAF=》多个输入一个输出。相当于reduce UDTF=》一个输入多个输出。相当于flatMap。(需要hive环境,暂时 ...

Mon Nov 25 04:43:00 CST 2019 0 504
SparkSQL(二)——基本操作

SparkSession新的起点 在老的版本中,SparkSQL提供两种SQL查询起始点:一个叫SQLContext,用于Spark自己提供的SQL查询;一个叫HiveContext,用于连接Hive的查询。 SparkSession是Spark最新的SQL查询起始点,实质上 ...

Sat Feb 29 23:34:00 CST 2020 0 1142
sparksql 操作hive

写在前面:hive的版本是1.2.1spark的版本是1.6.x http://spark.apache.org/docs/1.6.1/sql-programming-guide.html#hive-tables 查看hive和spark版本对应情况 SparkSQL操作Hive中的表数据 ...

Fri Aug 11 21:02:00 CST 2017 0 17250
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM