原文:sparklyr包:实现Spark与R的接口

日前,Rstudio公司发布了sparklyr包。该包具有以下几个功能: 实现R与Spark的连接 sparklyr包提供了一个完整的dplyr后端 筛选并聚合Spark数据集,接着在R中实现分析与可视化 利用Spark的MLlib机器学习库在R中实现分布式机器学习算法 可以创建一个扩展,用于调用Spark API。并为Spark的所有包集提供了一个接口 未来在RStudio IDE中集成支持S ...

2016-06-30 16:38 0 4799 推荐指数:

查看详情

通过 Spark R 操作 Hive

(Elasticsearch,Hadoop的原生语言)与Scala(Spark的原生语言)的帮助。 R和 ...

Thu Mar 23 02:49:00 CST 2017 1 1650
R语言学习笔记:glue实现变量传参

glue介绍 glue可用于自定义变量,然后通过传参的方式,对字符串部分内容进行自适应修改。 例如:可将日期赋值为:date = as.Date("2019-12-05"),然后通过字符串拼接的形式,实现文件名称自动更新,glue("The day is {date}."。 具体 ...

Thu Dec 05 18:31:00 CST 2019 0 325
R语言通过parallel实现多线程运行

总的来说,R的运算速度不算快,不过类似并行运算之类的改进可以提高运算的性能。下面非常简要地介绍如何利用R语言进行并行运算 library(parallel) cl.cores <- detectCores() cl < ...

Sat Apr 08 22:20:00 CST 2017 0 5262
Python实现Rbrainwaver中的compute.FDR函数

FDR(false discovery rate),是统计学中常见的一个名词,翻译为伪发现率,其意义为是 错误拒绝(拒绝真的(原)假设)的个数占所有被拒绝的原假设个数的比例的期望值。 compute ...

Sat Nov 10 03:12:00 CST 2018 0 847
正确引用RR

R版本不断更新,为保证数据可重复性,引用R时需标注出对应的R版本。那么如何引用呢? 打开R,键入citation(),得到对应的版本引用信息。 To cite R in publications use: R Core Team (2018). R ...

Tue Apr 14 23:18:00 CST 2020 0 821
R(三): R原理及安装

(package)是多个函数的集合,常作为分享代码的基本单元,代码封装成可以方便其他用户使用。越来越多的R正在由世界上不同的人所创建并分发,这些分发的R,可以从CRAN 或 github 上获取,由于向 CRAN 提交审核非常严格,有些开发者并没有将自己开发的R提至CRAN ...

Tue Aug 16 06:51:00 CST 2016 0 2723
Spark Jar问题

通常我们将spark任务编写后打包成jar,使用spark-submit进行提交,因为spark是分布式任务,如果运行机器上没有对应的依赖jar文件就会报ClassNotFound的错误。 下面有二个解决方法: 方法一:spark-submit –jars 根据spark官网 ...

Tue Apr 21 23:19:00 CST 2020 0 1100
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM