1,前言
伴隨人工智能和深度學習的應用越來越普及,越來越多的開發人員開始投入到智能算法的編程中。由於算法成熟且公開,軟件編碼這一塊不存在難度;但模型訓練和預測所需的時間與硬件設備的配置有極大關系,很多開發人員並不具備GPU計算能力,如此只能在cpu上計算將耗費太多時間,對於模型調試和實際應用產生實質性阻礙。
好在大公司已經將其軟硬件能力提供為PAAS、SAAS服務,讓普通用戶能使用其超強計算平台進行大數據計算。比如百度雲、阿里雲。本文對阿里雲提供的機器學習產品進行體驗。
2,建立項目一
阿里雲機器學習產品有很多服務,本人對其中的tensorflow服務比較關注。阿狸的文檔比較全面,基本安裝其指導就能正常使用了。具體可參考:
https://help.aliyun.com/document_detail/49571.html#OSS
(1)開通OSS存儲服務。地區選擇華東2,費用可選擇半年40G空間9元。
(2)開通機器學習服務,建立項目。模板選擇“tensorFlow圖片分類”。勾選“開啟GPU”。目前公測期免費。
3,配置項目一
tensorFlow圖片分類項目,默認配置了oss文件存儲,一個TF模型訓練和一個TF結果預測。
oss文件默認配置共用數據,但兩個TF流程的輸出目錄都需要指向自己的OSS目錄。
4,運行項目一
配置完成后,先運行訓練過程。在左側TF圖標上點擊“運行到此處”,開始運行,直至結束。此時訓練模型已經保存到指定的oss目錄下。運行時間24分鍾。
然后再運行右側流程。如下圖。但運行了超過1小時也沒有結束,就終止了。
5,建立並運行項目二
https://yq.aliyun.com/articles/72841?spm=5176.100239.0.0.aLlJGY
按照以上文章中的步驟,建立圖像識別項目。
訓練配置如下,訓練速度很快,20分鍾完成。
識別的配置如下:
執行只需1分鍾多,但識別結果錯誤,正確答案是:this is a bird
load data done
oss://jackkwok-001/tf_test/check_point/model/model.tfl
[0.0, 0.9939602613449097, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.006039762869477272]
[0.0, 0.9939602613449097, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.006039762869477272]
This is a automobile
再次運行預測部分,仍然是automobile。
重新運行訓練和預測兩部分,結果這次正確了。
load data done
oss://jackkwok-001/tf_test/check_point/model/model.tfl
[0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
This is a bird
而且只要訓練模型正確,以后無論運行多少次預測,結果都是正確的,且置信度都是1。