原文:十分钟了解分布式计算:Spark

Spark是一个通用的分布式内存计算框架,本文主要研讨Spark的核心数据结构RDD的设计思路,及其在内存上的容错。内容基于论文 Zaharia, Matei, et al. Resilient Distributed Datasets: A Fault Tolerant Abstraction for In Memory Cluster Computing Proceedings of the ...

2014-06-13 19:21 0 3496 推荐指数:

查看详情

十分钟了解分布式计算:GraphX

(C++)在Spark(Scala)上的重写及优化,跟其他分布式计算框架相比,GraphX最大的贡献是,在 ...

Fri Jul 04 03:20:00 CST 2014 1 12538
十分钟了解分布式计算:Google Dataflow

介绍 Google Cloud Dataflow是一种构建、管理和优化复杂数据处理流水线的方法,集成了许多内部技术,如用于数据高效并行化处理的Flume和具有良好容错机制流处理的MillWheel。 ...

Sun Jul 13 20:38:00 CST 2014 4 8694
十分钟了解分布式计算:GraphLab

GraphLab是一个面向大规模机器学习/图计算分布式内存计算框架,由CMU在2009年开始的一个C++项目,这里的内容是基于论文 Low, Yucheng, et al. "Distributed GraphLab: A Framework for Machine Learning ...

Sat Jun 14 00:03:00 CST 2014 0 4636
十分钟了解分布式计算:Petuum

Petuum是一个机器学习专用分布式计算框架,本文介绍其架构,并基于文章 More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server,NIPS 2013 重点探讨其核心内容SSP协议。 主要思想 ...

Sat Jun 14 03:01:00 CST 2014 1 12028
轻量级的分布式日志追踪利器,十分钟即可接入,从此日志追踪无难事

前言 随着微服务盛行,很多公司都把系统按照业务边界拆成了很多微服务,在排错查日志的时候。因为业务链路贯穿着很多微服务节点,导致定位某个请求的日志以及上下游业务的日志会变得有些困难。 这时候很多童鞋会开始考虑上SkyWalking,Pinpoint等分布式追踪系统来解决 ...

Thu Sep 17 18:40:00 CST 2020 3 1774
十分钟了解Kubernetes

何为Kubernetes? 最简单的一句话来概括Kubernetes。 它就是一套成熟的商用服务编排解决方案。Kubernetes定位在Saas层,重点解决了微服务大规模部署时的服务编排问题。 Kubernetes组件介绍 了解Kubernetes都是从Pod开始的。 Pod ...

Fri Jun 28 18:15:00 CST 2019 5 2624
十分钟了解计算机系统

《深入理解计算机系统》笔记 计算机系统是由硬件和软件相配合,运行应用程序的。 通过hello.c程序的生命周期:创建,编译,运行,打印结果,结束,来了解计算机系统的内部工作机制。 1,创建 对于计算机来说,所有的信息均以 bit 来存储。 1,创建hello.c文件 ...

Tue Oct 26 01:47:00 CST 2021 0 197
十分钟看懂云计算概念

亚马逊AWS、微软Azure、阿里Aliyun组成的3A团队连续多季度保持高速增长。AWS通过光环新网实现商用,IBM Bluemix则由世纪互联提供运营,国际云服务商陆续来了。Openstack发布 ...

Tue Feb 21 05:41:00 CST 2017 0 7282
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM