原文:Spark详解(05-1) - SparkCore实战案例

Spark详解 SparkCore实战案例 数据准备 数据格式 本项目的数据是采集电商网站的用户行为数据,主要包含用户的 种行为:搜索 点击 下单和支付。 数据采用 分割字段 每一行表示用户的一个行为,所以每一行只能是四种行为中的一种。 如果点击的品类id和产品id是 表示这次不是点击 针对下单行为,一次可以下单多个产品,所以品类id和产品id都是多个,id之间使用逗号分割。 如果本次不是下单行为 ...

2022-03-27 18:10 0 702 推荐指数:

查看详情

[Spark] - SparkCore程序优化总结

http://spark.apache.org/docs/1.6.1/tuning.html1) 代码优化 a. 对于多次使用的RDD,进行数据持久化操作(eg: cache、persist) b. 如果对同一个份数据进行操作,那么尽量公用一个RDD c. 优先使用reduceByKey ...

Wed Mar 15 23:00:00 CST 2017 0 3819
spark学习(RDD案例实战

练习0(并行化创建RDD) 练习1(map,filter) 练习2(map和flatMap) 练习3(union,intersecttion,distinct) 练习4(sor ...

Mon Mar 06 02:48:00 CST 2017 0 2579
spark 随机森林算法案例实战

随机森林算法 由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练 ...

Wed Jul 19 17:18:00 CST 2017 0 6075
Spark学习之路 (八)SparkCore的调优之开发调优

摘抄自:https://tech.meituan.com/spark-tuning-basic.html 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算 ...

Thu Apr 26 03:07:00 CST 2018 0 8581
Spark学习之路 (九)SparkCore的调优之数据倾斜调优

摘抄自:https://tech.meituan.com/spark-tuning-pro.html 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题 ...

Thu Apr 26 03:16:00 CST 2018 0 6882
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM