【文章推荐】Spark学习之路（一）Spark初识

原文：Spark学习之路（一）Spark初识

一官网介绍什么是Spark 官网地址：http: spark.apache.org Apache Spark 是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看，Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模 ...

2018-04-19 21:24 3 157741 推荐指数：

查看详情

Spark学习之路（三）Spark之RDD

一、RDD的概述 1.1　什么是RDD？ RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许 ...

Spark学习之路（六）Spark Transformation和Action

Transformation算子基本的初始化 java scala 一、map、flatMap、mapParations、mapPartitionsWithInd ...

Spark学习之路（十七）Spark分区

一、分区的概念　　分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因 ...

Spark学习之路（七）Spark 运行流程

一、Spark中的基本概念（1）Application：表示你的应用程序（2）Driver：表示main()函数，创建SparkContext。由SparkContext负责与ClusterManager通信，进行资源的申请，任务的分配和监控等。程序执行完毕后关闭SparkContext ...

Spark学习之路（五）Spark伪分布式安装

一、JDK的安装 JDK使用root用户安装 1.1　上传安装包并解压 1.2　配置环境变量 1.3　验证Java版本二、配置配 ...

Spark学习之路（十一）SparkCore的调优之Spark内存模型

摘抄自：https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.html 一、概述 Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个 ...

Spark学习之路（四）Spark的广播变量和累加器

一、概述在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效 ...

Spark学习之路（十八）SparkSQL简单使用

一、SparkSQL的进化之路 1.0以前： Shark 1.1.x开始： SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x ...

原文：Spark学习之路（一）Spark初识

相关推荐

相关标签

原文：Spark学习之路 （一）Spark初识

相关推荐

相关标签

原文：Spark学习之路（一）Spark初识