視頻分割


主要的視頻分割算法分為兩類:

  • OSVOS(one shot video object segmentation)每一幀單獨處理
  • MaskTrack考慮時序信息

 

    在MaskTrack中,首先使用圖像語義分割網絡(deeplabv2)得到instance segmentation。但問題是:怎么讓網絡知道哪一個instance需要分割?MaskTrack 中提出引導式實體分割的思路,將前一幀的預測結果作為掩膜額外輸入給網絡。輸入包含四個通道RGB+Mask。Mask 是提供可能的預測目標,包含大概的位置和形狀信息。在此基礎上訓練pixel labeling convnet,可以看做一個Mask Refinement。

 

論文的可行性:

  • 粗糙的Mask就ok
  • 不需要將視頻數據怎么訓練數據,因為輸入只需要多一個通道的Mask。作者通過對標注進行變換(deforming、coarsening)模擬前一幀Mask。其中affine transformations 和non-rigid deformations 模擬相鄰幀的運動變換,coarsening 用來模擬測試時前一幀的預測結果。

 

 本篇論文的另一 個亮點是: on-line training的設計

         在測試時,使用online training的技巧(在最優的tracking方法中使用)。將第一幀的標注信息作為額外的信息。在每個特定的instance下重新finetuning網絡。

 

網絡的變形:

  • 可以使用不同的標注數據(box annotation)
  • 使用optical flow 作為guidance(epicflow with flow fields matches and convolutional boundaries)

 

 

 

Lucid Data Dreaming數據擴充


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM