原文:Spark笔记之DataFrameNaFunctions

DataFrameNaFunctions用来对DataFrame中值为null或NaN的列做处理,处理分为三种类型: drop:根据条件丢弃含有null或NaN的行 fill:根据条件使用指定值填充值为null或NaN的列,相当于设置默认值 replace:根据条件替换列值 下面是针对每种处理方式的详细解释: package cc .spark.dataset.DataFrameNaFuncti ...

2018-11-13 21:23 0 947 推荐指数:

查看详情

spark 学习笔记 show()

函数重载 第一个参数:返回的行数 第二个参数:bool或者int类型,flase代表字段内容全部展示,true代表只展示20个字符,或者可以自动指定 第三个参数:是否垂直打印,默认 ...

Tue Aug 04 22:12:00 CST 2020 0 1965
Spark分析笔记

前言 第一章 Spark简介 本章将对Spark做一个介绍,以及它的一些基本概念 Spark是什么? Spark生态系统BDAS Spark架构 Spark分布式与单机多核架构的异同 Spark的企业级应用 第二章 Spark集群的部署 Spark程序模型 弹性分布式数据集 Spark ...

Wed Jul 27 02:48:00 CST 2016 1 5991
Spark笔记之Catalog

一、什么是Catalog Spark SQL提供了执行sql语句的支持,sql语句是以表的方式组织使用数据的,而表本身是如何组织存储的呢,肯定是存在一些元数据之类的东西了,Catalog就是Spark 2.0之后提供的访问元数据的类: Catalog提供一些API用来对数据库、表 ...

Mon Aug 13 01:03:00 CST 2018 0 891
Spark笔记-repartition和coalesce

窄依赖、宽依赖以及stage的划分依据:https://www.cnblogs.com/itboys/p/6673046.html 参考: http://blog.csdn.net/u0126849 ...

Wed Dec 20 05:35:00 CST 2017 0 8511
spark 笔记 5: SparkContext,SparkConf

SparkContext 是spark的程序入口,相当于熟悉的‘main’函数。它负责链接spark集群、创建RDD、创建累加计数器、创建广播变量。 /** * Main entry point for Spark functionality. A SparkContext ...

Fri Jan 23 09:21:00 CST 2015 0 4158
笔记:Spark简介

Spark简介 目录 Spark简介 Spark是什么 Spark与Hadoop Spark的优势 中间结果输出 数据格式和内存布局 执行策略 任务调度的开销 ...

Tue Aug 09 03:57:00 CST 2016 0 2940
spark bulkload hbase笔记

1. 现有的三方包不能完全支持 - 官方:hbase-spark,不能设置 timestamp - unicredit/hbase-rdd:接口太复杂,不能同时支持多个 family 2. HFile 得是有序的,排序依据 KeyValue.KVComparator,于是我们自定义一个 ...

Tue Feb 12 22:00:00 CST 2019 3 1157
Spark SQL 笔记

Spark SQL 简介 SparkSQL 的前身是 Shark, SparkSQL 产生的根本原因是其完全脱离了 Hive 的限制。(Shark 底层依赖于 Hive 的解析器, 查询优化器) SparkSQL 支持查询原生的 RDD ...

Tue Oct 29 05:13:00 CST 2019 0 314
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM