原文:Databricks 第1篇:初識Databricks,創建工作區、集群和Notebook

Azure Databricks是一個可擴展的數據分析平台,基於Apache Spark。Azure Databricks 工作區 Workspace 是一個交互式的環境,工作區把對象 notebook library dashboards experiments 組織成文件夾,用於數據集成和數據分析。 一,Azure Databricks的基本概念 ,工作區是一個交互式的環境 工作區是一個交互式 ...

2020-12-22 18:45 0 1589 推薦指數:

查看詳情

Databricks 第7:管理Secret

Azure中的Secret是指密碼、憑證和密鑰等,舉個例子,使用Azure Databricks Secret來存儲憑證,並在notebook和job中引用它們,而不是直接在notebook中輸入憑據。 Secret Scope是Secret的集合,每一個Secret是由name唯一確定 ...

Wed Jan 20 18:05:00 CST 2021 0 397
Databricks 第5Databricks文件系統(DBFS)

Databricks 文件系統 (DBFS,Databricks File System) 是一個裝載到 Azure Databricks 工作的分布式文件系統,可以在 Azure Databricks 群集上使用。 一個存儲對象是一個具有特定格式的文件,不同的格式具有不同的讀取和寫入的機制 ...

Tue Jan 12 22:24:00 CST 2021 0 1070
Databricks 第10:Job

大家知道,用戶可以在Notebook UI中以交互方式運行Notebook中的SQL、Python等代碼,交互方式便於數據的調查和分析。用戶還可以通過Job來自動維護數據,Job是立即運行或按計划運行notebook(或JAR)的一種方法,通過Job可以定時執行數據的清理和整合,用戶只需要設置好 ...

Wed Jan 27 21:44:00 CST 2021 0 343
Databricks 第2:pyspark.sql 簡介

pyspark中的DataFrame等價於Spark SQL中的一個關系表。在pyspark中,DataFrame由Column和Row構成。 pyspark.sql.SparkSession ...

Fri Jan 08 03:10:00 CST 2021 0 943
Databricks 第4:pyspark.sql 分組統計和窗口

對數據分析時,通常需要對數據進行分組,並對每個分組進行聚合運算。在一定意義上,窗口也是一種分組統計的方法。 分組數據 DataFrame.groupBy()返回的是GroupedData類,可以對 ...

Mon Jan 11 16:38:00 CST 2021 0 1308
Databricks說的Lakehouse是什么?

在過去的幾年里,Lakehouse作為一種新的數據管理范式,已獨立出現在Databricks的許多用戶和應用案例中。在這篇文章中,我們將闡述這種新范式以及它相對於之前方案的優勢。 數據倉庫在決策支持和商業智能應用方面有着悠久的歷史。自20世紀80年代末問世以來,數據倉庫技術一直在持續 ...

Tue Nov 17 19:30:00 CST 2020 2 586
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM