标签【离线数据仓库】

@羲凡——只为了更好的活着 Spark2.0 读写Redis数据(scala)——redis5.0.3 特别强调楼主使用spark2.3.2版本，redis5.0.3版本 ...

1.首先将集群的这3个文件hive-site.xml，core-size.xml,hdfs-site.xml放到资源文件里(必须，否则报错) 2.代码方面。下面几个测试都可以运行。 ...

由于ES集群在拉取数据时可以提供过滤功能，因此在采用ES集群作为spark运算时的数据来源时，根据过滤条件在拉取的源头就可以过滤了（ES提供过滤），就不必像从hdfs那样必须全部加载进spark的内存 ...

...

近期又有需求为：导入Oracle的表到hive库中；关于spark读取Oracle到hive有以下两点需要说明：　1、数据量较小时，可以直接使用spark.read.jdbc(orc ...

问题导读： 1.什么是数据仓库? 2.数据仓库的架构是怎样的？ 3.怎样设计数据仓库的模型？ 1、什么是数据仓库 1.1 数据 ...

一什么是数据仓库 1.1 数据仓库概念数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程 ...

Hive UDFHive UDF 函数1 POM 文件2.UDF 函数3 利用idea打包4 添加hive udf函数4.1 上传jar包到集群4.2 修改集群hdfs文件权限4.3 注册UDF4.4 ...

一、数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范1.3.1 表命名 ODS层命名为ods_表名 DWD层命名为dwd_dim/fact_表名 DWS层 ...

一环境：二.数据情况：三.Eclipse+Maven+Java 3.1 依赖： ...