花费 8 ms
十分钟了解分布式计算:GraphX

GraphX原型论文 GraphX是Spark中用于图(e.g., Web-Graphs and Social Networks)和图并行计算(e.g., PageRank and Collabor ...

Fri Jul 04 03:20:00 CST 2014 1 12538
十分钟了解分布式计算:Petuum

Petuum是一个机器学习专用分布式计算框架,本文介绍其架构,并基于文章 More Effective Distributed ML via a Stale Synchronous Parallel ...

Sat Jun 14 03:01:00 CST 2014 1 12028
十分钟了解分布式计算:Google Dataflow

介绍 Google Cloud Dataflow是一种构建、管理和优化复杂数据处理流水线的方法,集成了许多内部技术,如用于数据高效并行化处理的Flume和具有良好容错机制流处理的MillWheel。 ...

Sun Jul 13 20:38:00 CST 2014 4 8694
十分钟了解分布式计算:GraphLab

GraphLab是一个面向大规模机器学习/图计算的分布式内存计算框架,由CMU在2009年开始的一个C++项目,这里的内容是基于论文 Low, Yucheng, et al. "Distribute ...

Sat Jun 14 00:03:00 CST 2014 0 4636
十分钟了解分布式计算:Spark

Spark是一个通用的分布式内存计算框架,本文主要研讨Spark的核心数据结构RDD的设计思路,及其在内存上的容错。内容基于论文 Zaharia, Matei, et al. "Resilient ...

Sat Jun 14 03:21:00 CST 2014 0 3496
Scalding初探之二:动手来做做小实验

输入文件 Scalding既可以处理HDFS上的数据,也可以很方便地在本地运行处理一些test case便于debug,Source有好多种 1 TextLine(filename) Text ...

Mon Mar 24 04:35:00 CST 2014 0 2347

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM