原文:Spark学习之路 (一)Spark初识

一 官网介绍 什么是Spark 官网地址:http: spark.apache.org Apache Spark 是用于大规模数据处理的统一分析引擎。 从右侧最后一条新闻看,Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的 低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算 模 ...

2018-04-19 21:24 3 157741 推荐指数:

查看详情

Spark学习之路 (三)Spark之RDD

一、RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许 ...

Sat Apr 21 19:28:00 CST 2018 11 97621
Spark学习之路 (十七)Spark分区

一、分区的概念   分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因 ...

Fri May 04 03:24:00 CST 2018 5 12494
Spark学习之路 (七)Spark 运行流程

一、Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext ...

Thu Apr 26 02:53:00 CST 2018 5 15873
Spark学习之路 (四)Spark的广播变量和累加器

一、概述 在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量会被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效 ...

Sun Apr 22 00:59:00 CST 2018 1 17258
Spark学习之路 (十八)SparkSQL简单使用

一、SparkSQL的进化之路 1.0以前: Shark 1.1.x开始: SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x ...

Fri May 04 05:54:00 CST 2018 0 38394
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM