参考: http://spark.apache.org/docs/latest/programming-guide.html 后面懒得翻译了,英文记的,以后复习时再翻。 摘要:每个Spark application包含一个driver program 来运行main 函数,在集群上进 ...
一 Scala语言基础 Scala语言简介 Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台 Java虚拟机 ,并兼容现有的Java程序。 学习Scala编程语言,为后续学习Spark奠定基础。 为什么要学Scala l优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户体验。 l速度快 ...
2018-10-23 23:02 2 6682 推荐指数:
参考: http://spark.apache.org/docs/latest/programming-guide.html 后面懒得翻译了,英文记的,以后复习时再翻。 摘要:每个Spark application包含一个driver program 来运行main 函数,在集群上进 ...
一,变量 1,基本数据类型 2,基本运算符 3,定义变量 4,复杂变量 (1)定义数组Array: 声明:val aList=new Array[数据类型ty ...
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合。在spark中,对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群中,并将操作并行化。 Spark中的RDD就是一个不可 ...
介绍: RDD--Resilient Distributed Dataset Spark中RDD是一个不可变的分布式对象集合。每个RDD被分为多个分区,这些分区运行在集群的不同的节点上。RDD可以包含Python、Java、Scala中的任意类型的对象,以及自定义的对象。 创建RDD的两种 ...
Transformer: 是一个抽象类包含特征转换器, 和最终的学习模型, 需要实现transformer方法 通常transformer为一个RDD增加若干列, 最终转化成另一个RDD, 1. 特征转换器通常处理一个dataset, 把其中一列数据转化成一列新的数据。 并且把新的数据列添加到 ...
Scala module 2.10.0 requires Jackson Databind version >= 2.10.0 and < 2.11.0 这是jackson多版本题 , 我们需要屏蔽所有hadoop 组件中的Jackson , 累积需要屏蔽四次. ...
可变(mutable)集合与不可变(immutable)集合 为了更易于完成不可变集合到可变集合的转换,或者反向转换,Scala提供了一些语法糖。纵使不可变集和映射并不支持真正的+=方法,Scala还是为此提供了+=的语法解释。 然而如果people声明为var,而不是val ...
List列表的基本操作 head方法获得列表的第一个元素 tail方法获得列表除第一个元素之外的其它元素 isEmpty:判断列表是否为空,空的话返回真 last:获得列表最后一个元素 in ...