Microsoft Azure Project Oxford 體驗


 

2015年4月29日,微軟在Build 2015大會上發布了一個震撼人心的項目: Project Oxford, 可以幫助直接實現圖像理解、人臉識別、語音識別、語音合成等功能。雖然說這是號稱研究院的項目,不過人臉識別,圖像分類等等功能早已經在開源社區是一個比較成熟的東西了,OpenCV里也有很多成熟的算法,不過能夠被直接用在公有雲上使用,也算是幫助廣大創業的小伙伴們實現更多強大的功能。正好遇到5/1休息,IT碼農的本色又展現了出來,讓我來看一些到底有哪些有趣的功能可以玩。

Oxford支持的功能

Oxford的項目站點在https://www.projectoxford.ai/,主要包含了Face API, Speech API,Vision API和語言理解智能服務(LUIS),分別對應了Azure Marketplace中的幾個不同的app service,除了語言理解智能服務(LUIS)需要邀請加入以外,其他三個服務都已經可以在Azure全球的市場中進行試用了,不過當前只支持美西區域。當前也只有免費的計划,包含了每分鍾20個事務和每個月5000個事務的上限,看上去還沒有辦法商用。

Face API主要是一些人臉識別的接口和功能,包含人臉檢測,人臉驗證,相似人臉查詢,人臉分類和人臉識別。里面比較有趣的功能是能估計你的年齡,當然這個年齡和你當時的表情以及光線情況相關,不會非常的准確。

Speech API包含了語音識別的接口和功能,包括語音識別,語音意圖識別和TTS,也就是以前微軟的Speech Server提供的一些功能,如果想做個類似Cortana或者Siri的工具,就可以直接調用這個API。

Vision API包含了一些智能圖像處理的接口,比如圖像內容分析,圖像分類,色情內容檢測,前景背景色分析等等。還有比較簡單的縮略圖功能,當然這些縮略圖功能像阿里雲和七牛也都是免費支持。值得一提的是OCR的功能,可以從自然場景中檢測出文本,這就是我當年念書時候的碩士論文啊有木有。

Oxford 試用准備

Oxford的項目站點https://www.projectoxford.ai/上其實已經提供了大量的Live Demo, 可以通過現有的圖像庫,或者Azure Storage Account,甚至是自己上傳一些圖像來試用效果,不過作為IT碼農,必須要使用自己的代碼來實現在有樂趣。說玩就玩。

要使用Project Oxford,需要有一個全球的Azure賬號,可以前往Marketplace進行注冊,包括Face API, Speech API和Vision API,參見下面的三步,首先是選擇服務,然后選擇計划和名字,當前只有免費計划,最后確認。

 

 

 

當購買完之后,在Azure Management Portal中就已經有了三個服務了。

Face API試用

今天先玩一下Face API,首先去https://www.projectoxford.ai/sdk下載SDK,現在只有.NET和Android的平台,不過由於所有的接口都是REST API的,所以隨便什么代碼其實都可以用。

打開SDK以后,其實里面已經有一個現成的Sample代碼在里面封裝了所有的功能,根本不需要自己寫什么代碼,唯一需要的是打開Oxford的管理頁面https://dev.projectoxford.ai/Developer 獲取訂閱的Key,替換到代碼中。

 

 

緊接着把示例代碼跑起來。

你可以看到說基本上五個功能都包含在其中了。首先是人臉識別,我使用了我自己的照片,可以檢測出我臉。API支持檢測臉部的landmarks,年齡,性別,頭部的位置以及傾斜的角度。可是為什么我看上去比真實的年齡要老呢? 這個不科學啊。這個API對圖像有一定的要求,包括必須大於36*36像素大小,小於4M,人臉也最好是正面或者接近正面,此外由於讀取的是第一幀的信息,所以還需要注意JPEG拍攝的方向,調整到人頭向上的角度。

接下來我們來試一下人臉的驗證,看看是不是同一個人。一樣我可以選擇兩張照片,然后看看結論如何。

 

看到最后一行沒,他居然知道這是一個人!太厲害了。

接下來的三個功能是人臉分組,尋找類似的臉和在一個人物組里面尋找人,這些功能其實是上面兩個基本功能的延伸,核心還是人臉識別和人臉匹配,這里我就不試了。基本上有了這個API,我們可以做一個非常強的iPhoto出來了,這對創業公司想做一個類似照片管理的工具而言已經非常有用了。當然現在再做這個已經沒啥機會了,不過我們可以利用這個API,在現有應用上為用戶提供更好的體驗。

好了,晚點我在來用用Speech API和Vision API,雖然還沒具體試用,但是在他的Live Demo里,我發現他們都支持中文語音和文字識別,這對國內的小伙伴們的確是非常大的利好。我又不好意思想起了Microsoft Band居然不支持中文,搞得我只好去用Apple Watch了。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM