Databricks 第1篇:初識Databricks,創建工作區、集群和Notebook


Azure Databricks是一個可擴展的數據分析平台,基於Apache Spark。Azure Databricks 工作區(Workspace)是一個交互式的環境,工作區把對象(notebook、library、dashboards、experiments)組織成文件夾,用於數據集成和數據分析。

一,Azure Databricks的基本概念

1,工作區是一個交互式的環境

工作區是一個交互式的環境,可以管理Databricks的集群、Notebook、Job等對象。

2,集群是運行Notebook和job的資源

在使用工作區中,要進行數據集成和數據分析,必須創建集群(Cluster),Cluser代表運行notebook和job的計算資源,並用於存儲相應的配置信息。

Cluster有兩種類型:通用(All-purpose)和job,all-purpose集群是交互式的,用於通用的數據集成和數據分析任務,而job類型的集群用於定時運行job。

Job用於立即或按照計划來運行notebook或library。job類型的集群在job開始時創建,在job完成時結束。

根據cluster的類型,把Azure Databricks的工作負載(workload)分為兩個類型:data engineering (job) 和 data analytics (all-purpose)。

  • 數據工程:(自動)工作負載在Job群集上運行,Azure Databricks作業計划程序為每個工作負載創建了一個工作群集。
  • 數據分析:(交互式)工作負載在all-purpose集群上運行,交互式工作負載通常在Azure Databricks筆記本中運行命令,但是在現有的通用集群上運行作業也被視為交互式工作負載。

3,Notebook是一個基於Web的記事本

Notebook是一個包含可執行命令的記事本,用戶可以在Notebook中編寫Python命令,編輯命令,並執行命令,獲得輸出的結果,並可以對結果進行可視化處理,Notebook的功能和UI類似於Jupyter Notebook。

二,創建Workspace

通過Azure UI來創建工作區,從Azure Services中找到Azure Databricks。

創建工作區,選擇訂閱用於管理資源和成本,需要設置訂閱(Subscription)和資源組(Resource group),選擇定價策略(Pricing Tier)。

選擇“Review + Create”,點擊Create 按鈕來創建工作區。等到工作區部署完成之后,打開Azure Databricks Service,點擊“Launch Workspace”登錄到工作區門戶。

三,創建Spark Cluster

Spark Cluster可以看作是Databricks的計算資源,因此必須創建集群。

1,登錄到工作區門戶

登錄(Launch)到新建的工作區門戶中,從“Common Tasks”列表中點擊“New Cluster”。

2,配置集群 

Cluster Mode:集群的模式共有三種,High concurrency(高並發)、Standard(標准)和Single Node(單節點)。標准模式是推薦模式,通常用於單用戶的集群。

Pool:Pool是一組空閑的隨時可用的實例,可減少集群啟動和自動縮放的時間。當連接到Pool的集群需要一個實例時,它首先嘗試分配Pool的中一個實例,如果該Pool沒有空閑的實例,那么該Pool將通過從實例提供者分配有ige新的實例來擴展,以滿足集群的需求。集群釋放實例后,它將返回到Pool中,並可以提供給其他集群使用。只有連接到Pool的集群才能使用該Pool的空閑實例。實例在Pool中處於空閑狀態時是免費的。

Databricks Runtime:運行時版本配置,選擇用於創建集群的image,運行時是在集群上運行的一組核心組件。

Enable autoscaling:勾選自動縮放,根據工作負載的不同,集群在最大節點數量和最小節點數量之間自動縮放。

Terminate after xx minutes of inactivity:當集群不活動時,延遲一定時間后,結束集群。

配置完成之后,點擊頂部的“Create Clustere” 按鈕創建集群。

四,創建Notebook

Notebook是一個包含可執行命令的記事本,用戶可以在Notebook中編寫Python命令,編輯命令,並執行命令,獲得輸出的結果,並可以對結果進行可視化處理。

從Common Tasks中選擇“New Notebook”,輸入Notebook的Name,選擇編程語言Python、選擇集群,點擊對話框底部的“Create”按鈕創建Notebook。

在新建的Notebook中輸入命令,打印"hello world",點擊"Shift+Enter",執行命令

 

 

參考文檔:

Quickstart: Run a Spark job on Azure Databricks Workspace using the Azure portal


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM