大家知道,用戶可以在Notebook UI中以交互方式運行Notebook中的SQL、Python等代碼,交互方式便於數據的調查和分析。用戶還可以通過Job來自動維護數據,Job是立即運行或按計划運行notebook(或JAR)的一種方法,通過Job可以定時執行數據的清理和整合,用戶只需要設置好計划(schedule),就可以自動實現數據的維護。
用戶也可以通過Databricks UI來監控Job的運行結果,或者發送email alert,一旦Job運行失敗或成功,用戶會收到包含Job運行結果的郵件。
Databricks限制一個工作區:
- 最多只能同時運行1000個Job,並發度是1000;
- 在一個小時內,最多可以創建5000個Job(包括“立即運行”和“運行提交”)
一,使用UI來創建Job
點擊“Jobs”圖標,進入到Jobs頁面,點擊下面的“Create Job”按鈕來創建Job:
輸入Job的Title,並選擇Job執行的Task。
設置Job的屬性:
- 設置Task,可以選擇 Notebook、 Set JAR、Configure spark-submit,通常選擇Notebook。
- 設置Cluster:設置Job運行時使用的Cluster
- 設置Schedule:設置計划定時執行Job
二,立即運行Job
若要立即運行作業,請在“Active runs”列表中單擊“Run Now”:
三,查看Job運行結果
可以通過導出作業運行的結果來持久保存作業運行。 對於筆記本作業運行,可以先導出呈現的筆記本,稍后再將其導入到 Databricks 工作區中。
1,在作業詳細信息頁中,單擊“運行”列中的作業運行名稱。
2,單擊“導出到 HTML”。
四,控制對Job的訪問
Job的所有者和管理員可以通過"Job Access Control"控制權限。使用作業訪問控制,作業所有者可以選擇允許哪些其他用戶或組查看作業的結果。 所有者還可以選擇允許誰管理其作業的運行(即,調用“立即運行”,然后單擊“取消”)。
Step1,跳轉到Job的詳細信息頁面,點擊“Advanced”鏈接
Step2,點擊Permissions后面的“Edit”鏈接
Step3,在彈出對話框中,通過用戶名旁邊的下拉菜單分配作業權限。
參考文檔: