标签【Spark大数据处理】

Spark大数据处理之动手写WordCount

Spark是主流的大数据处理框架，具体有啥能耐，相信不需要多说。我们开门见山，直接动手写大数据界的HelloWorld：WordCount。先上完整代码，看看咋样能入门。寥寥10多行代码， ...

大数据处理肯定是分布式的了，那就面临着几个核心问题：可扩展性，负载均衡，容错处理。Spark是如何处理这些问题的呢？接着上一篇的“动手写WordCount”，今天要做的就是透过这个大数据界的Hello ...

在从WordCount看Spark大数据处理的核心机制（2）中我们看到Spark为了支持迭代和交互式数据挖掘，而明确提出了内存中可重用的数据集RDD。RDD的只读特性，再加上粗粒度转换操作形成的Lin ...

在上一篇文章中，我们讲了Spark大数据处理的可扩展性和负载均衡，今天要讲的是更为重点的容错处理，这涉及到Spark的应用场景和RDD的设计来源。 Spark的应用场景 Spark主要针对两种场景 ...