主要的視頻分割算法分為兩類:
- OSVOS(one shot video object segmentation)每一幀單獨處理
- MaskTrack考慮時序信息
在MaskTrack中,首先使用圖像語義分割網絡(deeplabv2)得到instance segmentation。但問題是:怎么讓網絡知道哪一個instance需要分割?MaskTrack 中提出引導式實體分割的思路,將前一幀的預測結果作為掩膜額外輸入給網絡。輸入包含四個通道RGB+Mask。Mask 是提供可能的預測目標,包含大概的位置和形狀信息。在此基礎上訓練pixel labeling convnet,可以看做一個Mask Refinement。
論文的可行性:
- 粗糙的Mask就ok
- 不需要將視頻數據怎么訓練數據,因為輸入只需要多一個通道的Mask。作者通過對標注進行變換(deforming、coarsening)模擬前一幀Mask。其中affine transformations 和non-rigid deformations 模擬相鄰幀的運動變換,coarsening 用來模擬測試時前一幀的預測結果。
本篇論文的另一 個亮點是: on-line training的設計
在測試時,使用online training的技巧(在最優的tracking方法中使用)。將第一幀的標注信息作為額外的信息。在每個特定的instance下重新finetuning網絡。
網絡的變形:
- 可以使用不同的標注數據(box annotation)
- 使用optical flow 作為guidance(epicflow with flow fields matches and convolutional boundaries)
Lucid Data Dreaming數據擴充