原文:Spark权威指南(中文版)----第1章Apache Spark是什么

Spark The Definitive Guide Spark权威指南 中文版。关注公众号,阅读中文版的Spark权威指南,系统学习Spark大数据框架 Apache Spark是一个统一的分布式内存计算引擎,包括一组用于在计算机集群上进行并行数据处理的函数库。截止目前,Spark已经成为大数据开发人员以及数据科学家的必备工具。Spark支持多种广泛使用的编程语言 Python Java Sca ...

2021-08-19 15:48 0 121 推荐指数:

查看详情

Spark 2.2.0 文档中文版 Spark Programming Guide 编程指南

  综述:   在高层中,每个spark应用由一个运行用户主函数的driver program和执行各种集群上的parallel operations所组成。spark最主要的概念:RDD弹性分布式数据集,它是一个跨越“可并行操作集群”所有节点的基本分区的集合。RDDs可被多种方式创建 ...

Wed Jul 19 22:53:00 CST 2017 2 3221
Learning Spark中文版--第六--Spark高级编程(2)

Working on a Per-Partition Basis(基于分区的操作) 以每个分区为基础处理数据使我们可以避免为每个数据项重做配置工作。如打开数据库连接或者创建随机数生成器这样的操作,我们希望避免为每个元素重做配置工作。Spark有分区版本的map和foreach,通过让RDD的每个 ...

Sun Mar 18 18:11:00 CST 2018 0 1173
《JavaScript权威指南(第6)(中文版)》PDF

简介自1996年以来,JavaScript的:权威指南已为JavaScript圣经程序员,程序员指南和全面的参考,以核心语言和客户端JavaScript API的Web浏览器定义。第6包括HTML5和ECMAScript 5,与jQuery和服务器端JavaScript新的篇章。这是推荐谁想 ...

Fri May 13 09:13:00 CST 2016 2 8042
HBase权威指南 高清中文版 PDF(来自linuxidc)

内容提要 《HBase权威指南》由乔治(Lars George)著,探讨了 如何通过使用与HBase高度集成的Hadoop将 HBase的可 伸缩性变得简单;把大型数据集分布到相对廉价的商 业服务器集群中;使用本地Java客户端,或者通过提 供了REST、Avro和Thrift应用 ...

Tue Nov 17 22:53:00 CST 2015 0 6780
【翻译】Spark 调优 (Tuning Spark) 中文版

由于Spark自己的调优guidance已经覆盖了很多很有价值的点,因此这里直接翻译一份过来。也作为一个积累。 Spark 调优 (Tuning Spark) 由于大多数Spark计算任务是在内存中运行计算,任何集群中的资源限制都可能成为Spark程序的瓶颈,比如:CPU、网络 ...

Thu Jan 19 00:53:00 CST 2017 0 1424
Learning Spark中文版--第五--加载保存数据(2)

SequenceFiles(序列文件)   SequenceFile是Hadoop的一种由键值对小文件组成的流行的格式。SequenceFIle有同步标记,Spark可以寻找标记点,然后与记录边界重新同步。Spark还可以从多个节点并行高效地读取SequenceFile。SequenceFile ...

Wed Mar 14 22:45:00 CST 2018 0 921
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM