原文:Databricks 第1篇:初识Databricks,创建工作区、集群和Notebook

Azure Databricks是一个可扩展的数据分析平台,基于Apache Spark。Azure Databricks 工作区 Workspace 是一个交互式的环境,工作区把对象 notebook library dashboards experiments 组织成文件夹,用于数据集成和数据分析。 一,Azure Databricks的基本概念 ,工作区是一个交互式的环境 工作区是一个交互式 ...

2020-12-22 18:45 0 1589 推荐指数:

查看详情

Databricks 第7:管理Secret

Azure中的Secret是指密码、凭证和密钥等,举个例子,使用Azure Databricks Secret来存储凭证,并在notebook和job中引用它们,而不是直接在notebook中输入凭据。 Secret Scope是Secret的集合,每一个Secret是由name唯一确定 ...

Wed Jan 20 18:05:00 CST 2021 0 397
Databricks 第5Databricks文件系统(DBFS)

Databricks 文件系统 (DBFS,Databricks File System) 是一个装载到 Azure Databricks 工作的分布式文件系统,可以在 Azure Databricks 群集上使用。 一个存储对象是一个具有特定格式的文件,不同的格式具有不同的读取和写入的机制 ...

Tue Jan 12 22:24:00 CST 2021 0 1070
Databricks 第10:Job

大家知道,用户可以在Notebook UI中以交互方式运行Notebook中的SQL、Python等代码,交互方式便于数据的调查和分析。用户还可以通过Job来自动维护数据,Job是立即运行或按计划运行notebook(或JAR)的一种方法,通过Job可以定时执行数据的清理和整合,用户只需要设置好 ...

Wed Jan 27 21:44:00 CST 2021 0 343
Databricks 第2:pyspark.sql 简介

pyspark中的DataFrame等价于Spark SQL中的一个关系表。在pyspark中,DataFrame由Column和Row构成。 pyspark.sql.SparkSession ...

Fri Jan 08 03:10:00 CST 2021 0 943
Databricks 第4:pyspark.sql 分组统计和窗口

对数据分析时,通常需要对数据进行分组,并对每个分组进行聚合运算。在一定意义上,窗口也是一种分组统计的方法。 分组数据 DataFrame.groupBy()返回的是GroupedData类,可以对 ...

Mon Jan 11 16:38:00 CST 2021 0 1308
Databricks说的Lakehouse是什么?

在过去的几年里,Lakehouse作为一种新的数据管理范式,已独立出现在Databricks的许多用户和应用案例中。在这篇文章中,我们将阐述这种新范式以及它相对于之前方案的优势。 数据仓库在决策支持和商业智能应用方面有着悠久的历史。自20世纪80年代末问世以来,数据仓库技术一直在持续 ...

Tue Nov 17 19:30:00 CST 2020 2 586
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM