圖像分類、目標檢測、圖像分割區別


2020-09-24

1、圖像分類

圖像分類主要是基於圖像的內容對圖像進行標記,通常會有一組固定的標簽,而你的模型必須預測出最適合圖像的標簽。這個問題對於機器來說相當困難的,因為它看到的只是圖像中的一組數字流。

 上圖片來自於Google Images

而且,世界各地經常會舉辦多種多樣的圖像分類比賽。在Kaggle中就可以找到很多這樣的競賽。最著名的比賽之一就是ImageNet挑戰賽。ImageNet實際上是一個很神奇的圖像庫(截止到編輯本文時,其中就約有1400萬張圖像),擁有超過20000個圖像標簽。這是由斯坦福大學計算機視覺實驗室維護的。ImageNet挑戰或大規模視覺識別挑戰(LSVRC)都是一個年度競賽,其中具有諸如目標分類,目標檢測和目標定位等各種子挑戰。LSVRC,特別是目標分類的挑戰,自從2012年,Alex Krizhevsky實施了著名的AlexNet,將圖像的錯誤率降低到15.7%(在當時從未實現),便開始獲得了很多關注。而最新的結果顯示,微軟ResNet的錯誤率為3.57%,Google的Inception-v3已經達到3.46%,而Inception-v4則又向前進了一步。

來源於Alfredo Canziani,Adam Paszke和Eugenio Culurciello於2017年撰寫的文章《實際應用中深度神經網絡模型的分析》(https://arxiv.org/pdf/1605.07678.pdf)

 

2、目標檢測

圖像中的目標檢測涉及識別各種子圖像並且圍繞每個識別的子圖像周圍繪制一個邊界框。這里有一個例子:

上圖片來自於Google Images

與分類相比,這個問題要稍微復雜一點,你必須對圖像進行更多的操作和處理。現在最著名檢測方法叫做Faster-RCNN。RCNN是局部卷積神經網絡,它使用一種稱為候選區域生成網絡(Region Proposal Network,RPN)的技術,實際上是將圖像中需要處理和分類的區域局部化。后來RCNN經過調整效率得以調高,現在稱之為faster – RCNN,一種用作候選區域生成方法的一部分用以生成局部的卷積神經網絡。目前最新的image-net挑戰(LSVRC 2017)有一個目標檢測的挑戰賽的冠軍,被一個名為“BDAT”的團隊所囊括,該團隊包括來自南京信息工程大學和倫敦帝國理工學院的人員。

 

3、圖像/實例分割

圖像分割或實例分割包括對具有現有目標和精確邊界的圖像進行分割。

圖片來自於是Google Images

它使用了一種叫做Mask R-CNN的技術,實際上就是我們前面看到的R-CNN技術上的幾個卷積層。微軟、Facebook和Mighty AI聯合發布了這個稱為COCO的數據集。它與ImageNet很相似,但它主要用於分割和檢測。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM