我們將開始深入了解如何使用Azure機器學習的基本功能,幫助您開始邁向Azure機器學習的數據科學家之路。
Azure ML Studio (Azure Machine Learning Studio / Azure ML Studio)是使用Azure機器學習雲實現預測分析解決方案的主要工具。Azure機器學習是基於雲計算和自容式的強大預測分析解決方案,具有完整的開發、測試和生產環節快速創建的獨立閉環。
Azure ML Studio提供交互式和可視化的工具輕松構建、測試和迭代預測分析模型。您可在Azure ML Studio中以拖拽的方式將數據集和分析模型在交互式畫布相連接創建實驗,然后編輯實驗並迭代計算預測分析模型,如果需要還可保存計算的副本並重復迭代計算。最終您可將實驗作為web服務發布於Azure,於是您的預測分析模型就可在web被訪問。
基於雲計算的Azure機器學習的另一個核心優點就是幾乎沒有任何的時間和基礎設施的啟動成本。尤其是Azure機器學習相關的任務都可在現代web瀏覽器中完成。
Azure機器學習基本術語
為了幫助您快速開始,讓我們定義描述各種功能、組件和工具的常見術語。
- Azure機器學習(Azure Machine Learning)包含所有必要的工具,可用來在微軟Azure雲平台設計、開發、分享、測試和部署預測分析模型解決方案。
-
Azure機器學習工作區(Azure Machine Learning workspaces)表示離散的"切片"式的 Azure機器學習工具集,它可以按照以下的標准進行分區:
- 工作區名稱(Workspace name)必須是唯一的,並且是確定機器學習工作區的主要方法。
- 工作區所有者(Workspace owner)是有效的微軟賬戶,用於管理對此Azure機器學習工作的訪問。
- 數據中心地理位置(Data center location)定義Azure機器學習工作區所在的Azure數據中心物理位置。
- 存儲賬戶(storage account)定義唯一的Azure存儲賬戶,用於存儲所有與此Azure機器學習工作區的相關的數據和工件。
- Azure機器學習實驗(Azure Machine Learning experiments),實驗是在Azure機器學習工作區中創建,可通過迭代計算實現快速開發機器學習解決方案的主要方法。在每一個Azure機器學習實驗中,Azure ML Studio提供交互式、可視化的工作區,可輕松創建、測試和迭代計算預測分析實驗。這些實驗可在Azure ML Studio中提交執行。Azure ML Studio實驗是高度重復的,很容易創建、編輯、測試、保存和重新運行試驗。Azure機器學習實驗實驗是為現代數據科學家專門設計,使其能夠在評估新的預測模型時以"快速失敗"的方式不斷改進細化模型。簡單來說,Azure機器學習提供迭代的方式快速失敗或者最終取得成功。
- Azure ML Studio是主要的交互式預測分析工作台,在Azure機器學習工作區為數據科學家提供可視化的設計工具以拖放的方式創建Azure機器學習實驗,在Azure機器學習工作區提供訪問Azure ML Studio唯一的運行環境。除了可以創建新的實驗,Azure ML Studio還包括Azure機器學習實驗的示例鏈接。這些功能能使您很容易的與更有經驗的人學習,在數據科學的旅程中利用最好的技術和工具幫助您完成基於領域的預測分析的目標。
-
Azure機器學習web服務(Azure Machine Learning web services)A zure機器學習實驗以REST API的方式在網絡中提供API訪問服務,這些服務 可以是 簡單的web服務或者OData端點。API以兩種類型的rest風格的web接口:
- 請求響應服務(Request Response Service - RRS) 適用於獨立的、低延遲,需要同步使用的預測模型。
- 批處理執行服務(Batch Execution Service - BES)適用於異步處理的批量數據記錄。BES支持多種格式的數據源,比如blob、表、SQL Azure,以及HDInsight(作為Hive查詢的結果)和HTTP源。
- 數據集(Datasets)是指上載至Azure ML Studio被用於預測模型的數據。Azure ML Studio提供大量的示例數據集可進行實驗,您也可上傳更多的數據集滿足您的計算需求。
-
模型(Modules)是應用於數據計算的算法。Azure ML Studio包含大量的模型,即從數據訓練、評價到驗證過程的函數。下面是包含的模型示例:
- 轉換為ARFF(Convert to ARFF)將.NET序列化數據集轉換為ARFF格式。在機器學習領域,ARFF是常見的表示屬性-關系的文件結構。它通常被定義為ASCII文本文件,描述實例列表共享的一系列屬性。
- 基本統計(Elementary Statistics)是計算基本的統計數據,如均值、標准差等。
- 線性回歸(Linear Regression)創建在線梯度下降的線性回歸模型。
- 評估模型(Score Model)評價訓練的分類或者回歸模型。
模型可能包含一組參數用於配置模型的內部算法。當您在畫布(canvas)上選擇一個模型,畫布右側的窗格中顯示模型的參數。您可以在該窗格中修改參數優化模型。
快速開始
Azure機器學習之旅的第一步是獲得微軟Azure環境,這里有幾種方法您可以選擇:
- 選擇1,使用在 http://azure.microsoft.com/en-us/pricing/free-trial 提供的免費Azure試用賬號。
-
- 這是Azure提供的免費特別功能,因此只允許您訪問Azure機器學習環境。
- 這對於新的采納者而言是一個極其低摩擦的選擇:開始的唯一必須條件就是有效的微軟賬號。
- 如果您需要注冊微軟賬號,請訪問 http://windows.microsoft.com/en-US/windows-live/sign-up-create-account-how 。
- 您使用有效的微軟賬號登陸后,躍入眼簾的是如圖3-1所示的幫助您入門的介紹視頻。您也可在此鏈接 https://go.microsoft.com/fwlink/?LinkID=518038 回顧介紹視頻。
圖Azure機器學習介紹視頻
請注意如果您選擇的是使用免費的Azure機器學習試用,那么您將只有Azure機器學習功能的訪問權限,沒有權限使用全部的Azure環境。為真正最大化您的體驗,強烈建議您獲取全部微軟Azure環境。
創建第一個Azure機器學習工作區
讓我們創建第一個Azure機器學習工作區,在這一點上Azure免費賬戶與付費的Azure訂閱是相同的。讓我們從 https://manage.windowsazure.com 導航至Azure管理門戶。在那里,在左側的導航欄點擊機器學習,如下圖所示。
Azure機器學習工作區包含全部您需要在雲端創建、管理和發布機器學習實驗的工具。若要創建一個新的Azure機器學習工作區,請單擊頁面左下角的新建圖標,在如下圖的頁面中補充必填項。
創建一個新的Azure機器學習工作區:
- 工作區的名稱(WORKSPACE NAME)在您的Azure機器學習工作區中是唯一的。請您知悉如果您將光標從工作區名稱區域移開時,會檢查您提供的工作區名稱是否唯一,如果唯一的話會在文本框的右側顯示綠的復選標記。
- 工作區所有者(WORSPACE OWNER)提供有效的微軟賬號(以前的Windows Live ID)。注意,它不能是非微軟賬戶,比如您的公司電子郵件。創建免費微軟賬戶請登錄 www.live.com 。
- Azure Machine Learning的位置(LOCATION)僅在美國南中部地區可用。
- 存儲賬戶(STORAGE ACCOUNT)選項可以選擇創建一個新的存儲賬戶或者使用現有的存儲賬戶。
- 新的存儲賬戶名稱(NEW STORAGE ACCOUNT NAME):如果您選擇為您的Azure機器學習的工作區創建新的存儲賬戶,請確認存儲賬戶的名稱只能是小寫字母數據字符。如果名稱是唯一的,您會在文本框的右側看到綠色的復選標記。
一旦您創建機器學習工作區,Azure將提供全新的Azure機器學習工作區供您創建和承載您的額Azure機器學習實踐。
在創建您的Azure機器學習之后,單擊您的新的Azure機器學習工作區的圖標您將看到如下圖所示的界面。
請注意,這是由Azure管理門戶的登陸Azure機器學習工作區。在此,您可以直接訪問Azure機器學習Studio的工具管理用戶訪問工作區的權限,管理在此工作區中承載機器學習實驗的Web服務。在頂部的導航菜單提供了Azure機器學習工作區功能的導航。
- 儀表板(DASHBOARD)可以監控您的工作區的在一段時間內的相對和絕對計算的使用量。
- 配置(CONFIGURE)功能用來允許或者拒絕用戶對於您的工作的訪問。
- Web服務(WEB SERVICES)選項允許您管理web服務和配置端口,且包含為數據科學家和分析師通過請求/響應的API訪問或者批處理的代碼示例,代碼示例由流行的編程語言C#、Python和R語言組成。
在我們重溫這些特性的細節之后將開始探索Azure 機器學習的環境。
若要訪問您的工作區,點擊ML Studio的登陸鏈接進入您的新的 Azure 機器學習工作區。下圖就是Azure ML Studio工作區的截圖。
當您首次進入Azure ML Studio的工作區,您會看到如下的導航選項在頂部和左側的導航欄上:
頂部導航欄:
- Home 文檔和其他資源的鏈接;
- Studio Azure ML Studio實驗的登錄頁;
- Gallery (Preview) 是趨勢實驗和樣本的集合。
左側導航欄:
- EXPERIMENTS 實驗的創建、運行和保存草稿;
- WEB SERVICES已發布的實驗列表;
- DATASETS上載的數據集,可用於實驗的計算;
- TRAINED MODELS 使用Azure ML Studio內置的機器學習算法"訓練"的新預測模型;
- SETTINGS 設置的賬戶和資源的設置集合。