目录 Part I. Gentle Overview of Big Data and Spark Overview 1.基本架构 ...
目录 Part I. Gentle Overview of Big Data and Spark Overview 1.基本架构 ...
基于Spark的GBDT + LR模型实现 目录 基于Spark的GBDT + LR模型实现 数据预处理部分 GBDT模型部分(省略调参部分) ...
目录 项目架构 前期工作:数据加载 离线推荐 统计推荐 ALS离线推荐 实时推荐 这个项目的整体业务逻辑是通过Spring ...
目录 Part V. Streaming Stream Processing Fundamentals 1.概念 2.Str ...
目录 业务需求 业务数据源 用户访问Session分析 Session聚合统计 Session分层抽样 Top10热门品类 To ...
目录 Spark SQL/DF的执行过程 集群运行部分 Aggregation Join Shuffle Tungsten 内存管理机制 ...
实验介绍 数据采用Criteo Display Ads。这个数据一共11G,有13个integer features,26个categorical features。 Spark 由于数据 ...
目录 代码优化 1.语言选择 2.API选择 3.内存 4.Caching 4.filter、map、join、partitio ...
目录 1.数据倾斜 2.TopN 3.Join优化 预排序的join cross join 考虑Join顺序 4.根据Has ...