【文章推荐】撰写的《大数据处理框架Apache Spark设计与实现》出版了

原文：撰写的《大数据处理框架Apache Spark设计与实现》出版了

拖拖拉拉写了很久的书大数据处理框架Apache Spark设计与实现终于出版了。书的内容是以Apache Spark为主，系统总结了大数据处理框架的一些基本问题设计原理实现方案以及性能和可靠性。相比之前在github上写的 SparkInternals ，内容更完善专业深入，书中大概有一半的页配有全彩插图。感谢孙学瑛编辑及团队的付出感谢朋友们提出的审阅意见以及实验室和亲朋好友的大力 ...

2020-07-21 11:52 6 1730 推荐指数：

查看详情

我的《海量数据处理与大数据技术实战》出版啦！

我是如何持续写作的？其实，关于写作，我也没多想，就是想着总结自己学习和工作中遇到的一些问题。我最开始写文章并不是在CSDN或者其他的一些博客平台，而是在QQ空间。那时的我还在上学，在QQ空间里 ...

Spark大数据处理 之从WordCount看Spark大数据处理的核心机制（2）

在上一篇文章中，我们讲了Spark大数据处理的可扩展性和负载均衡，今天要讲的是更为重点的容错处理，这涉及到Spark的应用场景和RDD的设计来源。 Spark的应用场景 Spark主要针对两种场景：机器学习，数据挖掘，图应用中常用的迭代算法（每一次迭代对数据执行相似的函数 ...

Spark大数据处理 之从WordCount看Spark大数据处理的核心机制（1）

大数据处理肯定是分布式的了，那就面临着几个核心问题：可扩展性，负载均衡，容错处理。Spark是如何处理这些问题的呢？接着上一篇的“动手写WordCount”，今天要做的就是透过这个大数据界的HelloWorld来看看Spark隐藏了哪些魔法。请各位看官，带着分布式的问题往下看。分布式架构 ...

大数据处理框架

说起大数据处理啊，一切都起源于Google公司的经典论文。在当时（2000年左右），由于网页数量急剧增加，Google公司内部平时要编写很多的程序来处理大量的原始数据：爬虫爬到的网页、网页请求日志；计算各种类型的派生数据：倒排索引、网页的各种图结构等等。这些计算在概念上很容易理解，但由于输入 ...

三个大数据处理框架：Storm，Spark和Samza 介绍比较

转自：http://www.open-open.com/lib/view/open1426065900123.html 许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同 ...

Spark大数据处理框架入门(单机版)

导读引言环境准备安装步骤 1.下载地址 2.开始下载 3.解压spark 4.配置环境变量 5.配置 spark-env.sh 6.启动spark服务 7.测试spark 感谢您的阅读 ...

Storm，Spark和Flink三种流式大数据处理框架对比

storm、spark streaming、flink都是开源的分布式系统，具有低延迟、可扩展和容错性诸多优点，允许你在运行数据流代码时，将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现的复杂程度。 Apache Storm 在Storm中，先要设计一个用于 ...

《Spark大数据处理》—— 读后总结

前几章工作机制 ...

原文：撰写的《大数据处理框架Apache Spark设计与实现》出版了

相关推荐

相关标签