原文:【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令

Learning Spark 这本书算是Spark入门的必读书了,中文版是 Spark快速大数据分析 ,不过豆瓣书评很有意思的是,英文原版评分 . ,评论都说入门而已深入不足,中文译版评分 . ,评论一片好评,有点意思。我倒觉得这本书可以作为官方文档的一个补充,刷完后基本上对Spark的一些基本概念 码简单的程序是没有问题的了。这本书有一个好处是它是用三门语言写的,Python Java Sca ...

2016-04-21 16:50 3 16870 推荐指数:

查看详情

Learning Spark (Python) 学习笔记(四)----Spark Sreaming与MLlib机器学习

  本来这篇是准备5.15更的,但是上周一直在忙签证和工作的事,没时间就推迟了,现在终于有时间来写写Learning Spark最后一部分内容了。   第10-11 章主要讲的是Spark Streaming 和MLlib方面的内容。我们知道Spark在离线处理数据上的性能很好,那么它在实时 ...

Mon May 30 20:24:00 CST 2016 7 10427
Spark】【RDD】初次学习RDD 笔记 汇总

RDD Author:萌狼蓝天 【哔哩哔哩】萌狼蓝天 【博客】https://mllt.cc 【博客园】萌狼蓝天 - 博客园 【微信公众号】mllt9920 【学习交流QQ群】238948804 目录 RDD 特点 ...

Sun Oct 31 11:48:00 CST 2021 0 125
Spark RDD基本概念、宽窄依赖、转换行为操作

本文介绍一下rdd的基本属性概念rdd的转换/行动操作、rdd的宽/窄依赖。 目录 RDD概述 RDD的内部代码 先看看基本概念的代码: 常用的函数/算子 案例 小总结 ...

Sat Feb 22 20:48:00 CST 2020 0 1168
Spark RDD概念学习系列之RDD的容错机制(十七)

RDD的容错机制     RDD实现了基于Lineage的容错机制。RDD的转换关系,构成了compute chain,可以把这个compute chain认为是RDD之间演化的Lineage。在部分计算结果丢失时,只需要根据这个Lineage重算即可。  图1中,假如RDD ...

Tue Sep 20 19:33:00 CST 2016 0 2622
Spark RDD概念学习系列之RDD的五大特征

  不多说,直接上干货! RDD的五大特征   分区--- partitions   依赖--- dependencies()   计算函数--- computer(p,context)   分区策略(Pair RDD)-- partitioner ...

Mon Jun 05 02:20:00 CST 2017 0 2162
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM