Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始 ...
SparkR R on Spark 概述 SparkDataFrame 启动: SparkSession 从 RStudio 来启动 创建 SparkDataFrames 从本地的 data frames 来创建 SparkDataFrames 从 Data Sources 数据源 创建 SparkDataFrame 从 Hive tables 来创建 SparkDataFrame SparkD ...
2017-09-26 19:29 0 1257 推荐指数:
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始 ...
Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Input DStreams 和 Receivers(接收器 ...
前言 Apache Storm 是一个免费的,开源的,分布式的实时计算系统. 官方文档: http://storm.apache.org 中文文档: http://storm.apachecn.org ApacheCN 最近组织了翻译 Storm 1.1.0 中文文档 的活动,整体 翻译进度 ...
Kafka 中文文档 - ApacheCN https://kafka.apachecn.org/ https://kafka.apachecn.org/intro.html Apache Kafka® 是 一个分布式流处理平台. 这到底意味着什么呢? 我们知道流处理平台有以下 ...
欢迎转载,转载请注明出处,徽沪一郎。 概要 根据论坛上的信息,在Sparkrelease计划中,在Spark 1.3中有将SparkR纳入到发行版的可能。本文就提前展示一下如何安装及使用SparkR. SparkR的出现解决了R语言中无法级联扩展的难题,同时也极大的丰富了Spark在机器学习 ...
综述: 在高层中,每个spark应用由一个运行用户主函数的driver program和执行各种集群上的parallel operations所组成。spark最主要的概念:RDD弹性分布式数据集,它是一个跨越“可并行操作集群”所有节点的基本分区的集合。RDDs可被多种方式创建 ...
协同过滤常用于推荐系统,这项技术旨在填补 丢失的user-item关联矩阵 的条目,spark.ml目前支持基于模型的协同过滤(用一些丢失条目的潜在因素在描述用户和产品)。spark.ml使用ALS(交替最小二乘法)去学习这些潜在因素。在spark.ml中的实现有以下参数 ...
中文文档: http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html 英文文档: http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html ...