Databricks 第1篇：初識Databricks，創建工作區、集群和Notebook

本文轉載自查看原文 2020-12-22 18:45 1589 Databricks

Azure Databricks是一個可擴展的數據分析平台，基於Apache Spark。Azure Databricks 工作區（Workspace）是一個交互式的環境，工作區把對象（notebook、library、dashboards、experiments）組織成文件夾，用於數據集成和數據分析。

一，Azure Databricks的基本概念

1，工作區是一個交互式的環境

工作區是一個交互式的環境，可以管理Databricks的集群、Notebook、Job等對象。

2，集群是運行Notebook和job的資源

在使用工作區中，要進行數據集成和數據分析，必須創建集群（Cluster），Cluser代表運行notebook和job的計算資源，並用於存儲相應的配置信息。

Cluster有兩種類型：通用（All-purpose）和job，all-purpose集群是交互式的，用於通用的數據集成和數據分析任務，而job類型的集群用於定時運行job。

Job用於立即或按照計划來運行notebook或library。job類型的集群在job開始時創建，在job完成時結束。

根據cluster的類型，把Azure Databricks的工作負載(workload)分為兩個類型：data engineering (job) 和 data analytics (all-purpose)。

數據工程：（自動）工作負載在Job群集上運行，Azure Databricks作業計划程序為每個工作負載創建了一個工作群集。
數據分析：（交互式）工作負載在all-purpose集群上運行，交互式工作負載通常在Azure Databricks筆記本中運行命令，但是在現有的通用集群上運行作業也被視為交互式工作負載。

3，Notebook是一個基於Web的記事本

Notebook是一個包含可執行命令的記事本，用戶可以在Notebook中編寫Python命令，編輯命令，並執行命令，獲得輸出的結果，並可以對結果進行可視化處理，Notebook的功能和UI類似於Jupyter Notebook。

二，創建Workspace

通過Azure UI來創建工作區，從Azure Services中找到Azure Databricks。

創建工作區，選擇訂閱用於管理資源和成本，需要設置訂閱（Subscription）和資源組（Resource group），選擇定價策略（Pricing Tier）。

選擇“Review + Create”，點擊Create 按鈕來創建工作區。等到工作區部署完成之后，打開Azure Databricks Service，點擊“Launch Workspace”登錄到工作區門戶。

三，創建Spark Cluster

Spark Cluster可以看作是Databricks的計算資源，因此必須創建集群。

1，登錄到工作區門戶

登錄（Launch）到新建的工作區門戶中，從“Common Tasks”列表中點擊“New Cluster”。

2，配置集群

Cluster Mode：集群的模式共有三種，High concurrency（高並發）、Standard（標准）和Single Node（單節點）。標准模式是推薦模式，通常用於單用戶的集群。

Pool：Pool是一組空閑的隨時可用的實例，可減少集群啟動和自動縮放的時間。當連接到Pool的集群需要一個實例時，它首先嘗試分配Pool的中一個實例，如果該Pool沒有空閑的實例，那么該Pool將通過從實例提供者分配有ige新的實例來擴展，以滿足集群的需求。集群釋放實例后，它將返回到Pool中，並可以提供給其他集群使用。只有連接到Pool的集群才能使用該Pool的空閑實例。實例在Pool中處於空閑狀態時是免費的。

Databricks Runtime：運行時版本配置，選擇用於創建集群的image，運行時是在集群上運行的一組核心組件。

Enable autoscaling：勾選自動縮放，根據工作負載的不同，集群在最大節點數量和最小節點數量之間自動縮放。

Terminate after xx minutes of inactivity：當集群不活動時，延遲一定時間后，結束集群。

配置完成之后，點擊頂部的“Create Clustere” 按鈕創建集群。

四，創建Notebook

Notebook是一個包含可執行命令的記事本，用戶可以在Notebook中編寫Python命令，編輯命令，並執行命令，獲得輸出的結果，並可以對結果進行可視化處理。

從Common Tasks中選擇“New Notebook”，輸入Notebook的Name，選擇編程語言Python、選擇集群，點擊對話框底部的“Create”按鈕創建Notebook。

在新建的Notebook中輸入命令，打印"hello world"，點擊"Shift+Enter"，執行命令

參考文檔：

Quickstart: Run a Spark job on Azure Databricks Workspace using the Azure portal

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Databricks 第7篇：管理Secret Databricks 第5篇：Databricks文件系統（DBFS） Databricks 第10篇：Job Databricks 第2篇：pyspark.sql 簡介 Databricks 第4篇：pyspark.sql 分組統計和窗口 Databricks 第6篇：Spark SQL 維護數據庫和表 Databricks說的Lakehouse是什么？ Databricks 第9篇：Spark SQL 基礎（標識符、數據類型、NULL語義） Databricks 第11篇：Spark SQL 查詢（行轉列、列轉行、Lateral View、排序） Databricks 第3篇：pyspark.sql 通過JDBC連接數據庫