标签【大数据框架】

例子 result = table1.join(table1,['字段'],"full").withColumn("名称",col("字段")/col("字段")) 　　新增一列数据， ...

Spark机器学习之推荐引擎

一. 最小二乘法建立模型关于最小二乘法矩阵分解，我们可以参阅：一、矩阵分解模型。用户对物品的打分行为可以表示成一个评分矩阵A(m*n)，表示m个用户对n各物品的打 ...

1. 批处理计算批量处理无法实现实时计算，可以用Mapreduce和spark。由于spark是将数据放在内存中计算的，而mapreduce数据在磁盘中，需要将数据从磁盘中读取到内存，算完 ...

Clickhouse 入门

clickhouse 简介 ck是一个列式存储的数据库，其针对的场景是OLAP。OLAP的特点是：数据不经常写，即便写也是批量写。不像OLTP是一条一条写大多数是读请求查询并发较 ...

pyspark中union和union all

spark中union 和 unionAll看起来相似，但是实际上操作上结果上都有区别。union会把数据都扫一遍，然后剔除重复的数据；然而unionAll直接把两份数据粘贴返回，时间上会快很多。 ...

Spark MLlib + maven + scala 试水～

使用SGD算法逻辑回归的垃圾邮件分类器 maven打包scala程序 ...

SQL引擎（查询引擎和存储引擎）

sql引擎（我觉得仅仅是查询引擎）主流包含： HIve，Impala，spark sql，Drill，HAWQ和Presto 还有2大商业化的选择： Oracle Big Data SQL和IBM的 ...

Hive架构及搭建方式

目录前言 hive的基础知识基本架构 metastore 内嵌服务和数据库内嵌服务服务和数据 ...

pyspark和sparksql啥区别

目前有用过pyspark ...

分布四个部分 1. 数据采集通过爬虫工具，ETL工具获取数据，然后经过清洗、转换和集成将数据加载到数据仓库或者数据集市中。 extract, transform,load 2 ...