花费 6 ms
Spark之RDD的定义及五大特性

  RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,能横跨集群所有节点并行计算,是一种基于工作集的应用抽象。   RDD底层存储原理:其数据分布存储于 ...

Wed Jun 05 03:44:00 CST 2019 0 2760
Spark之RDD容错原理及四大核心要点

一、Spark RDD容错原理   RDD不同的依赖关系导致Spark对不同的依赖关系有不同的处理方式。   对于宽依赖而言,由于宽依赖实质是指父RDD的一个分区会对应一个子RDD的多个分区,在此 ...

Sun Jun 23 05:57:00 CST 2019 0 843
Spark学习之数据读取与保存总结(一)

一、动机   我们已经学了很多在 Spark 中对已分发的数据执行的操作。到目前为止,所展示的示例都是从本地集合或者普通文件中进行数据读取和保存的。但有时候,数据量可能大到无法放在一台机器中,这时就 ...

Tue Apr 16 02:24:00 CST 2019 0 929
Spark之RDD弹性特性

  RDD作为弹性分布式数据集,它的弹性具体体现在以下七个方面。 1.自动进行内存和磁盘数据存储的切换   Spark会优先把数据放到内存中,如果内存实在放不下,会放到磁盘里面,不但能计算内存放下 ...

Wed Jun 05 04:48:00 CST 2019 0 602
Spark之RDD依赖关系及DAG逻辑视图

  RDD依赖关系为成两种:窄依赖(Narrow Dependency)、宽依赖(Shuffle Dependency)。窄依赖表示每个父RDD中的Partition最多被子RDD的一个Partiti ...

Tue Jun 18 01:11:00 CST 2019 0 581
Spark学习之RDD编程总结

  Spark 对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称 RDD)。RDD 其实就是分布式的元素集合。在 Spark 中,对数据的所有操作 ...

Sun Mar 31 04:18:00 CST 2019 0 575
Spark实战电影点评系统(一)

一、通过RDD实战电影点评系统   日常的数据来源有很多渠道,如网络爬虫、网页埋点、系统日志等。下面的案例中使用的是用户观看电影和点评电影的行为数据,数据来源于网络上的公开数据,共有3个数据文件:u ...

Mon May 13 22:11:00 CST 2019 0 455

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM