【文章推荐】Spark详解(05-1) - SparkCore实战案例

原文：Spark详解(05-1) - SparkCore实战案例

Spark详解 SparkCore实战案例数据准备数据格式本项目的数据是采集电商网站的用户行为数据，主要包含用户的种行为：搜索点击下单和支付。数据采用分割字段每一行表示用户的一个行为，所以每一行只能是四种行为中的一种。如果点击的品类id和产品id是表示这次不是点击针对下单行为，一次可以下单多个产品，所以品类id和产品id都是多个，id之间使用逗号分割。如果本次不是下单行为 ...

2022-03-27 18:10 0 702 推荐指数：

查看详情

sparkcore入门到实战之（12）Spark读取Hbase中的数据

大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下： JavaRDD< ...

Spark（十五）SparkCore的源码解读

是执行/usr/dahua/spark/sbin目录下的start-master.sh和start-sla ...

[Spark] - SparkCore程序优化总结

http://spark.apache.org/docs/1.6.1/tuning.html1) 代码优化 a. 对于多次使用的RDD，进行数据持久化操作(eg: cache、persist) b. 如果对同一个份数据进行操作，那么尽量公用一个RDD c. 优先使用reduceByKey ...

spark学习（RDD案例实战）

练习0（并行化创建RDD）练习1（map，filter）练习2（map和flatMap）练习3（union，intersecttion，distinct）练习4（sor ...

spark 随机森林算法案例实战

随机森林算法由多个决策树构成的森林，算法分类结果由这些决策树投票得到，决策树在生成的过程当中分别在行方向和列方向上添加随机过程，行方向上构建决策树时采用放回抽样（bootstraping）得到训练 ...

Spark学习之路（十一）SparkCore的调优之Spark内存模型

摘抄自：https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.html 一、概述 Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个 ...

Spark学习之路（八）SparkCore的调优之开发调优

摘抄自：https://tech.meituan.com/spark-tuning-basic.html 前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算 ...

Spark学习之路（九）SparkCore的调优之数据倾斜调优

摘抄自：https://tech.meituan.com/spark-tuning-pro.html 数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题 ...

原文：Spark详解(05-1) - SparkCore实战案例

相关推荐

相关标签