微軟機器學習Azure Machine Learning入門概覽


Azure Machine Learning(簡稱“AML”)是微軟在其公有雲Azure上推出的基於Web使用的一項機器學習服務,機器學習屬人工智能的一個分支,它技術借助算法讓電腦對大量流動數據集進行識別。這種方式能夠通過歷史數據來預測未來事件和行為,其實現方式明顯優於傳統的商業智能形式。微軟的目標是簡化使用機器學習的過程,以便於開發人員、業務分析師和數據科學家進行廣泛、便捷地應用。這款服務的目的在於“將機器學習動力與雲計算的簡單性相結合”。AML目前在微軟的Global Azure雲服務平台提供服務,用戶可以通過站點:https://studio.azureml.net/ 申請免費試用。

登錄到試用賬號之后可以看到如下的界面:

對於初次使用者,可以通過選擇左側菜單的“Experiments”,然后選擇左下角的New,彈出菜單后選擇新增一個“Experiments Tutorial”,就能夠啟動一個內置的示例。這是一個根據已有數據包括年齡、教育層度、婚姻狀態、職業、現收入等分析預測任何一類人群收入是否能超過50k的模型。通過點擊下一步,用戶就能輕而易舉的了解如何導入數據、如何做數據的預處理、如何將數據分離用於訓練模型和驗證模型、如何選擇算法訓練模型以及如何評估模型的效果。整個過程無需編程,完全是通過拖拽和配置完成,非常的簡單。能讓用戶快速上手AML用法,從而把更多的精力放在理解數據和算法上,工具本身並不會給你帶來任何額外的學習成本。

同時,用戶還可以通過 https://azure.microsoft.com/en-us/documentation/articles/machine-learning-import-data/ (英文)了解所有關於微軟Azure機器學習相關的知識。我這里針對幾個大家普遍關心的問題做一些解釋,幫助大家快速了解AML並快速上手。

  1. 數據如何導入及數據的類型。

對於所要用於訓練及驗證模型的數據,需要導入到AML的Studio中。目前支持的數據導入方式如下:

•本地文件上傳
•Azure BLOB storage, table
•Azure SQL database
•Hadoop using HiveQL
•A web URL using HTTP
•A data feed provider(OData)

支持的數據類型如下:

• txt文本文件;
• CSV 文件,包括.csv和.nh.csv;
• TSV文件,包括.tsv和.nh.tsv;
• Hadoop Hive table
• SQL database table
• OData values
• SVMLight data (.svmlight) (具體描述見鏈接:http://svmlight.joachims.org/ )
• Attribute Relation File Format (ARFF) data (.arff) (具體描述見鏈接:http://weka.wikispaces.com/ARFF )
• Zip file (.zip)
• R object or workspace file (.RData) 

      2. 內置的算法

概括的說,微軟Azure機器學習內置了基於監督學習和非監督學習的分類、回歸、聚類等的20多種算法,詳細的算法描述詳見鏈接:https://msdn.microsoft.com/en-us/library/azure/dn905812.aspx 。我也會在后面的博文中陸續向大家介紹。除了算法之外, AML還集成了400+多個R語言的程序包。

對於選擇什么樣的算法,無論是對於初學者還是有經驗的數據科學家,其實都是很讓人費腦筋的事情。微軟也提供了很多資料幫助大家判斷應該選擇哪些算法。如下是幾個非常有用的鏈接(英文):

•Microsoft Azure Machine Learning Algorithm Cheat Sheet - https://azure.microsoft.com/en-us/documentation/articles/machine-learning-algorithm-cheat-sheet/

•Choosing a Learning Algorithm in Azure Machine Learning - http://blogs.technet.com/b/machinelearning/archive/2015/05/20/choosing-a-learning-algorithm-in-azure-ml.aspx

•Choosing a Machine Learning Classifier - http://blog.echen.me/2011/04/27/choosing-a-machine-learning-classifier/

•Choosing the right estimator - http://scikit-learn.org/stable/tutorial/machine_learning_map/

        3. 內置的應用模塊  

為了方便微軟Azure機器學習讓更多的人很容易的上手和使用,AML原生內置了很多業務場景的原始數據和機器學習模塊及API。用戶可直接使用它們,或者做少量的修改為自己所用。主要的業務場景包括但不限於如下(還在持續增加中)。初學者可以先從這些已有的模塊理解和掌握機器學習的使用。可以從登錄首頁上方菜單的“Gallery”中找到這些已經構建好的模型。

• 文本分析;
• 客戶流失預測;
• 推薦系統;
• 預測性維護;
• 欺詐監測;

       4. 如何計費

AML作為一個雲服務,通過Web訪問的方式提供。目前提供免費和標准兩種服務提供方式。標准級別按照使用時長計費,具體可參考:http://azure.microsoft.com/en-us/pricing/details/machine-learning/

本文僅對微軟的Azure機器學習服務做概要引導式的介紹,幫助大家對該服務有一個初步的了解。另外還有很多內容包括構建好機器學習模型之后如何發布等會在后面的博客中再向大家詳細介紹。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM