概述
本文來源於《A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation》,論文主要介紹了一種作者團隊提供的針對視頻語義分割算法進行評估的基准數據並提供了三種指標用於評估算法效果的優劣。本文主要是個人在閱讀該論文的的一些所得,但由於論文內容所致,本文閱讀起來更像一篇說明文檔,提供與此,僅供參考。
DAVIS由50個高質量,全高清的視頻序列組,包含有多個視頻目標分割挑戰,如遮擋,運動模糊和外觀變化。每一個視頻都是稠密標注,像素級別的精度和逐幀的真值分割(將前景對象與背景區域精確像素分離)。同時提出了三種互補的度量標准(區域相似性、輪廓准確性以及時間連貫性)來對當時幾種最新的的分割方法進行綜合分析。
數據集說明
根據以往的數據集經驗,整個數據集重點關注四個關鍵方面,來創建一個平衡全面的數據集。
1. 數據的數量和質量
首先,一個好的數據集要有足量的數據,這是確保內容的多樣性並提供一組均勻分布的挑戰的前提。並且擁有足量的數據對於避免過度擬合和延遲性能起到至關重要的作用,同時這在一定程度上也保證數據集具有更長的使用壽命。
另一方面,數據的質量也非常重要, 數據集的質量需能反映現有技術的水平。
基於上邊兩個因素,構建了DAVIS數據集
,DAVIS構成包括50個序列總共3455標注幀,視頻幀率為24fps,分辨率為1080p。
同時由於當前計算復雜度是視頻處理的一個重要瓶頸。因此,為了減少計算的復雜程度,DAVIS中的視頻序列采用較短的時間長度(2-4秒),但是它涵蓋了大部分在長視頻序列中找到的挑戰。
2. 實驗驗證
對於視頻中的每一幀,提供了像素級別的精度,以二進制掩碼的方式手工創建分割結果。
每個DAVIS數據集細分成分成訓練集和測試集兩個部分。但在評估的時候,不使用分區,而是考慮整個數據集,因為大多數的評估方法不需要訓練,並且由於計算復雜度,網格搜索最優參數的估計是不可行的。
3. 對象存在
每個序列都應包含至少一個要與背景區域分開的目標前景對象。
選擇不使用多個具有明顯運動的不同對象,以便能夠公平地將對單個對象進行操作的分段方法與對多個對象進行聯合分段的方法進行比較。
此外,每個序列只有一個對象,這將消除通過全自動方法執行的檢測的歧義(因為檢測的目標只有一個)。
4. 無約束視頻挑戰
為了能夠對算法的性能進行更深入的分析和理解,識別可能影響算法性能的關鍵因素和環境是至關重要的。因此定義一個擴展的視頻屬性集合,用於代表特殊情況,如快速運動,遮擋和雜亂背景這些典型的視頻分割挑戰。
具體屬性及其含義如下表所示:
ID | Description | 描述 |
---|---|---|
BC | Background Clutter. The back- and foreground regions around the object boundaries have similar colors (![]() |
復雜的背景。在目標邊界附近的背景前景區域有相似的顏色。 |
DEF | Deformation. Object undergoes complex, non-rigid deformations. | 形變。目標存在復雜的非剛性的形變。 |
MB | Motion Blur. Object has fuzzy boundaries due to fast motion. | 運動模糊。由於快速的運動,目標邊界模糊。 |
FM | Fast-Motion. The average, per-frame object motion, computed as centroids Euclidean distance, is larger than ![]() |
快速運動。目標平均的幀間運動距離大於20像素,距離定義為質心的歐幾里得距離。 |
LR | Low Resolution. The ratio between the average object bounding-box area and the image area is smaller than tlr = 0.1. | 低分辨率(小目標)。平均目標邊框區域與圖像區域的比值小於tlr = 0.1。 |
OCC | Occlusion. Object becomes partially or fully occluded. | 遮擋。目標部分或全部被遮擋。 |
OV | Out-of-view. Object is partially clipped by the image boundaries. | 視野之外。目標被圖像邊框裁剪了部分,即只有部分目標處於視野中。 |
SV | Scale-Variation. The area ratio among any pair of boundingboxes enclosing the target object is smaller than ![]() |
尺度變化。存在一對包圍目標對象的邊界框(兩幀),他們的面積比小於0.5。 |
AC | Appearance Change. Noticeable appearance variation, due to illumination changes and relative camera-object rotation. | 外觀變化。由光照變化和相對的相機-目標旋轉導致的顯著外觀變化。 |
EA | Edge Ambiguity. Unreliable edge detection. The average groundtruth edge probability (using [11]) is smaller than ![]() |
邊沿模糊。不可靠的邊沿檢測。平均真值邊界的概率小於0.5. |
CS | Camera-Shake. Footage displays non-negligible vibrations. | 相機抖動。畫面顯示不可忽略的振動。 |
HO | Heterogeneus Object. Object regions have distinct colors. | 顏色不均勻的目標。目標區域有不同的顏色。 |
IO | Interacting Objects. The target object is an ensemble of multiple, spatially-connected objects (e.g. mother with stroller). | 交互的對象。目標對象是多個空間連接的對象(例如母親和嬰兒車)的集合。 |
DB | Dynamic Background. Background regions move or deform. | 動態背景。背景區域移動或者形變。 |
SC | Shape Complexity. The object has complex boundaries such as thin parts and holes. | 復雜形狀。目標有復雜的邊界,比如很細的部分或者洞。 |
這些屬性並不具備排他性,因此一個視頻序列可以被標注多個屬性。他們在數據集中的分布展示在下圖左中,圖右顯示他們兩兩之間的依賴關系。
實驗驗證
在有監督的評估框架中,給定一個特定幀上的標記數據 G和一個輸出的分割結果M,所有的評估指標都是主要為了解決一個問題:即G和M之間的擬合程度或者說是相似的程度。
因此論文中給了三種評價指標,區域相似性、輪廓准確性以及時間連貫性
1. 區域相似度(Region Similarity \(\mathcal{J}\))
為了測量基於區域的分割相似度,即識別錯誤像素的數量,此處使用使用Jaccard索引!\(\mathcal{J}\)。
Jaccard索引定義如下:
其中\(M\)為輸出的分割結果,\(G\) 為真值掩膜(也就是圖像的標記結果)。
2. 輪廓准確性(Contour Accuracy \(\mathcal{F}\)))
從基於輪廓的角度來看,可以將M解釋為一組限定掩模空間范圍的閉合輪廓c(M)。因此可說出通過一個二分匹配來比較c(M)和c(G)邊緣點的精確度Pc和召回率Rc。進而定義了一個\(F-score\)來衡量輪廓的整體准確性,其具體定義如下:
3. 時間穩定性(Temporal stability \(\mathcal{T}\))
結果的時域穩定性是視頻對象分割中的一個相關重要的方面,由於對象形狀的演化是識別和抖動的一個重要線索,不穩定的邊界在視頻編輯應用中是不可接受的。
因此,論文引入了一種時間穩定性測量方法來懲罰這種不期望的效果。關鍵的問題是區分物體的可接受的運動和不需要的不穩定性和抖動。
因此估計了在一幀掩碼轉換到下一幀所需的變形。簡單來說,如果轉換是平滑和精確的,結果可以認為是穩定的。
在形式上,我們將幀t的掩膜\(\mathcal{T}\)轉換為代表其輪廓的多邊形。\(\mathcal{T}\)然后,我們使用形狀上下文描(SCD)[3]述符描述每個點\(\mathcal{T}\)。接下來,我們將匹配設置為動態時間扭曲(DTW)[39]問題,是我們尋找和\(\mathcal{T}\) \(\mathcal{T}\)之間的匹配,它最小化了匹配點之間的SCD距離,同時保持了點在形狀中出現的順序。
每匹配點的平均成本作為時間穩定性\(\mathcal{T}\)的度量。直觀上,匹配將補償運動和小的變形,但它不會補償曲線的振盪和誤差,這是我們想要測量的。遮擋和非常強的變形會被誤解為輪廓不穩定,因此在沒有這種影響的情況下計算序列子集的測量值。
指標相關性
結果統計圖如下:
從結果統計圖中可以看出\(\mathcal{T}\)和\(\mathcal{J}\)之間有明顯的線性相關。\(\mathcal{F}\)和\(\mathcal{T}\)之間則沒有。
指標差異性
在左邊,結果受到J的懲罰,因為就像素數量而言,未成功識別的區域頭和腳很大,而對於邊界度量F,漏掉的百分比更低。在右側,整個車身都被識別出來了,因此IoU是比較大的,但是對應的邊界高度不准,因而\(F\)比較小。
簡單來說,左圖結果\(\mathcal{T}\)低但\(\mathcal{J}\)高,右圖\(\mathcal{J}\)高但低\(\mathcal{F}\)。
結論
運行時間效率和內存要求是幾種視頻分割算法的可用性的主要瓶頸。在我們的實驗中,我們觀察到花費大量時間對圖像進行預處理以提取邊界保留區域,對象建議和運動估計。鼓勵未來的研究仔細考慮那些可能會損害其工作實用性的組件。高效的算法將能夠利用此數據集提供的全高清視頻和精確的分割蒙版。利用高分辨率可能無法在區域相似性方面產生更好的結果,但是改善復雜物體輪廓和微小物體區域的分割至關重要。