标签【Databricks】 - 码上欢乐

本文分享在Azure Databricks中如何实现行转列和列转行，并介绍对查询的结果进行排序的各种方式。一，行转列在分组中，把每个分组中的某一列的数据连接在一起： collect_l ...

Azure Databricks是一个可扩展的数据分析平台，基于Apache Spark。Azure Databricks 工作区（Workspace）是一个交互式的环境，工作区把对象（noteboo ...

对数据分析时，通常需要对数据进行分组，并对每个分组进行聚合运算。在一定意义上，窗口也是一种分组统计的方法。分组数据 DataFrame.groupBy()返回的是GroupedData类，可以对 ...

Spark SQL 支持多种数据类型，并兼容Python、Scala等语言的数据类型。一，标识符标识符是一个字符串，用于标识一个数据库对象，比如table、view、schema、column ...

Databricks 文件系统 (DBFS，Databricks File System) 是一个装载到 Azure Databricks 工作区的分布式文件系统，可以在 Azure Databric ...

Azure Key Vault 简介

Azure Key Vault（密钥库）是用于安全地存储和访问Secret的云服务，Secret是需要严格控制访问权限的内容，例如API密钥，密码，证书或加密密钥。Key Vault Service支 ...

Spark SQL 表的命名方式是db_name.table_name，只有数据库名称和数据表名称。如果没有指定db_name而直接引用table_name，实际上是引用default 数据库下的表。 ...

Databricks Runtime 包含Azure SQL 数据库的 JDBC 驱动程序，本文介绍如何使用数据帧 API 连接到使用 JDBC 的 SQL 数据库，通过 JDBC 接口进行的读取操作 ...

Databricks 第2篇：pyspark.sql 简介

pyspark中的DataFrame等价于Spark SQL中的一个关系表。在pyspark中，DataFrame由Column和Row构成。 pyspark.sql.SparkSession ...

DBFS使用dbutils实现存储服务的装载（mount、挂载），用户可以把Azure Data Lake Storage Gen2和Azure Blob Storage 账户装载到DBFS中。Mou ...