标签【dplyr】 - 码上欢乐

数据分析的工作，80%的时间耗费在处理数据上，而数据处理的主要过程可以分为：分离-操作-结合（Split-Apply-Combine），也就是说，首先，把数据根据特定的字段分组，每个分组都是独立的；然 ...

dplyr是由Hadley Wickham主持开发和维护的一个主要针对数据框快速计算、整合的函数包，同时提供一些常用函数的高速写法以及几个开源数据库的连接。此包是plyr包的深化功能包，其名字中的字母“d”即来源于data frame，以示其专注于数据框数据的整理和操作。我们将在本章中着重介绍一些 ...

sparklyr包：实现Spark与R的接口

日前，Rstudio公司发布了sparklyr包。该包具有以下几个功能：实现R与Spark的连接—sparklyr包提供了一个完整的dplyr后端筛选并聚合Spark数据集，接着在R中实现分析与可视化利用Spark的MLlib机器学习库在R中实现分布式 ...

dplyr包实用总结之mutate系列

dplyr包实用总结之mutate系列 mutate系列 mutate_if mutate_if（）：转换由谓词函数(一个判断式，一个返回bool值的函数或者仿函数)选择的特定列谓词函数，也叫判断函数（predicate function） mutate_if（）转换数据类型，挺方便 ...

dplyr 常用函数 [summarise]

，否则summarize()并不是非常有用。这会将分析单位从完整数据集更改为单个组。当在分组数据框上使用dplyr时， ...

dplyr 常用函数 [mutate]

https://r4ds.had.co.nz/transform.html#add-new-variables-with-mutate 5.mutate可根据已有的变量添加新的变量变形函数mut ...

相关标签