計算機視覺的三大分類任務:圖像分類、目標檢測、圖像分割;
1. 圖像分類(Classification),即是將圖像結構化為某一類別的信息,用事先確定好的類別(category)或實例ID來描述圖片。
2. 目標檢測(Detection)。分類任務關心整體,給出的是整張圖片的內容描述,而檢測則關注特定的物體目標,要求同時獲得這一目標的類別信息和位置信息(classification + localization)。相比分類,檢測給出的是對圖片前景和背景的理解,我們需要從背景中分離出感興趣的目標,並確定這一目標的描述(類別和位置),因此檢測模型的輸出是一個列表,列表的每一項使用一個數組給出檢出目標的類別和位置(常用矩形檢測框的坐標表示)。
3. 圖像分割(Segmentation)。分割包括語義分割(semantic segmentation)和實例分割(instance segmentation),前者是對前背景分離的拓展,要求分離開具有不同語義的圖像部分,而后者是檢測任務的拓展,要求描述出目標的輪廓(相比檢測框更為精細)。分割是對圖像的像素級描述,它賦予每個像素類別(實例)意義,適用於理解要求較高的場景,如無人駕駛中對道路和非道路的分割。
總結:圖像分類(image classification)是將圖像划分(divide)為單個類別,通常對應於圖像中最突出的物體。但是現實世界的很多圖像通常包含的不只是一個物體,此時如果使用圖像分類模型為圖像分配一個單一標簽其實是非常粗糙的,並不准確。對於這樣的情況,就需要目標檢測(object detection)模型,目標檢測模型可以識別一張圖片的多個物體,並可以定位出不同物體(給出邊界框)。目標檢測在很多場景有用,如無人駕駛和安防系統。