Facebook AI的DETR，一種基於Transformer的目標檢測方法

本文轉載自查看原文 2020-07-10 11:22 2553 機器學習/ 深度學習

作者|PRATEEK JOSHI
編譯|VK
來源|Analytics Vidhya

機器學習框架或庫有時會更改該領域的格局。今天，Facebook開源了一個這樣的框架，DETR(DEtection TRansformer)

在本文中，我們將快速了解目標檢測的概念，然后直接研究DETR及其帶來的好處。

在計算機視覺中，目標檢測是一項任務，我們希望我們的模型將對象與背景區分開，並預測圖像中存在的對象的位置和類別。當前的深度學習方法試圖解決作為分類問題或回歸問題或綜合兩者的目標檢測任務。

例如，在RCNN算法中，從輸入圖像中識別出幾個感興趣的區域。然后將這些區域分類為對象或背景，最后，使用回歸模型為所標識的對象生成邊界框。

另一方面，YOLO框架（只看一次）以不同的方式處理目標檢測。它在單個實例中獲取整個圖像，並預測這些框的邊界框坐標和類概率。

要了解有關目標檢測的更多信息，請參閱以下文章：

如上一節所述，當前的深度學習算法以多步方式執行目標檢測。他們還遭受了幾乎重復的問題，即誤報。為簡化起見，Facebook AI的研究人員提出了DETR，這是一種解決物體檢測問題的創新高效方法。

這個新模型非常簡單，你無需安裝任何庫即可使用它。DETR借助基於Transformer的編碼器-解碼器體系結構將目標檢測問題視為集合預測問題。所謂集合，是指邊界框的集合。Transformer是在NLP領域中表現出色的新型深度學習模型。

本文的作者已經對比了Faster R-CNN，並且在最流行的物體檢測數據集之一COCO上評估了DETR 。

結果，DETR取得了可比的性能。更准確地說，DETR在大型物體上表現出明顯更好的性能。但是，它在小型物體上的效果不佳。我相信研究人員很快就會解決這個問題。

實際上，整個DETR架構很容易理解。它包含三個主要組件：

目標檢測變壓器

首先，CNN骨干網從輸入圖像生成特征圖。

然后，將CNN骨干網的輸出轉換為一維特征圖，並將其作為輸入傳遞到Transformer編碼器。該編碼器的輸出是N個固定長度的嵌入（向量），其中N是模型假設的圖像中的對象數。

Transformer解碼器借助自身和編碼器-解碼器注意機制將這些嵌入解碼為邊界框坐標。

最后，前饋神經網絡預測邊界框的標准化中心坐標，高度和寬度，而線性層使用softmax函數預測類別標簽。

對於所有深度學習和計算機視覺愛好者來說，這是一個非常令人興奮的框架。非常感謝Facebook與社區分享其方法。

歡迎關注磐創AI博客站：
http://panchuang.net/

sklearn機器學習中文官方文檔：
http://sklearn123.com/

歡迎關注磐創博客資源匯總站：
http://docs.panchuang.net/

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。