原文:撰写的《大数据处理框架Apache Spark设计与实现》出版了

拖拖拉拉写了很久的书 大数据处理框架Apache Spark设计与实现 终于出版了。书的内容是以Apache Spark为主,系统总结了大数据处理框架的一些基本问题 设计原理 实现方案 以及性能和可靠性。相比之前在github上写的 SparkInternals ,内容更完善专业深入,书中大概有一半的页配有全彩插图。 感谢孙学瑛编辑及团队的付出 感谢朋友们提出的审阅意见 以及实验室和亲朋好友的大力 ...

2020-07-21 11:52 6 1730 推荐指数:

查看详情

我的《海量数据处理大数据技术实战》出版啦!

我是如何持续写作的? 其实,关于写作,我也没多想,就是想着总结自己学习和工作中遇到的一些问题。我最开始写文章并不是在CSDN或者其他的一些博客平台,而是在QQ空间。那时的我还在上学,在QQ空间里 ...

Fri Aug 28 09:31:00 CST 2020 0 856
Spark大数据处理 之 从WordCount看Spark大数据处理的核心机制(2)

在上一篇文章中,我们讲了Spark大数据处理的可扩展性和负载均衡,今天要讲的是更为重点的容错处理,这涉及到Spark的应用场景和RDD的设计来源。 Spark的应用场景 Spark主要针对两种场景: 机器学习,数据挖掘,图应用中常用的迭代算法(每一次迭代对数据执行相似的函数 ...

Fri Jun 05 16:43:00 CST 2015 0 2062
Spark大数据处理 之 从WordCount看Spark大数据处理的核心机制(1)

大数据处理肯定是分布式的了,那就面临着几个核心问题:可扩展性,负载均衡,容错处理Spark是如何处理这些问题的呢?接着上一篇的“动手写WordCount”,今天要做的就是透过这个大数据界的HelloWorld来看看Spark隐藏了哪些魔法。 请各位看官,带着分布式的问题往下看。 分布式架构 ...

Sat May 30 07:06:00 CST 2015 4 5493
大数据处理框架

说起大数据处理啊,一切都起源于Google公司的经典论文。在当时(2000年左右),由于网页数量急剧增加,Google公司内部平时要编写很多的程序来处理大量的原始数据:爬虫爬到的网页、网页请求日志;计算各种类型的派生数据:倒排索引、网页的各种图结构等等。这些计算在概念上很容易理解,但由于输入 ...

Sun Nov 05 22:37:00 CST 2017 0 4966
三个大数据处理框架:Storm,Spark和Samza 介绍比较

转自:http://www.open-open.com/lib/view/open1426065900123.html 许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同 ...

Wed Jan 18 17:54:00 CST 2017 0 5275
Spark大数据处理框架入门(单机版)

导读 引言 环境准备 安装步骤 1.下载地址 2.开始下载 3.解压spark 4.配置环境变量 5.配置 spark-env.sh 6.启动spark服务 7.测试spark 感谢您的阅读 ...

Fri May 21 20:48:00 CST 2021 0 344
Storm,Spark和Flink三种流式大数据处理框架对比

storm、spark streaming、flink都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现的复杂程度。 Apache Storm 在Storm中,先要设计一个用于 ...

Tue Jan 07 04:28:00 CST 2020 0 3455
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM