一幅圖像能頂16x16字!——用於大規模圖像縮放識別的變壓器(對ICLR 2021年論文的簡要回顧)


作者|Stan Kriventsov
編譯|Flin
來源|medium

在這篇博文中,我想在不作太多技術細節的情況下,解釋其作者提交給2021 ICLR會議的新論文“一張圖等於16x16個字:用於大規模圖像識別的變壓器”的意義(目前為止匿名)。

另一篇文章中,我提供了一個示例,該示例將這種新模型(稱為Vision Transformer,視覺變壓器)與PyTorch一起用於對標准MNIST數據集進行預測。

自1960年以來深度學習(機器學習利用神經網絡有不止一個隱藏層)已經問世,但促使深度學習真正來到了前列的,是2012年的時候AlexNet,一個卷積網絡(簡單來說,一個網絡,首先查找小的圖案在圖像的每個部分,然后嘗試將它們組合成一張整體圖片),由Alex Krizhevsky設計,贏得了年度ImageNet圖像分類競賽的冠軍。

在接下來的幾年里,深度計算機視覺技術經歷了一場真正的革命,每年都會出現新的卷積體系結構(GoogleNet、ResNet、DenseNet、EfficientNet等),以在ImageNet和其他基准數據集(如CIFAR-10、CIFAR-100)上創下新的精度記錄。

下圖顯示了自2011年以來ImageNet數據集上機器學習模型的最高精度(第一次嘗試時正確預測圖像所含內容的准確性)的進展情況。

然而,在過去的幾年里,深度學習最有趣的發展不是在圖像領域,而是在自然語言處理(NLP)中,這是由Ashish Vaswani等人在2017年的論文“注意力是你需要的一切”中首次提出的。

注意力的思想,指的是可訓練的權重,模擬輸入句子不同部分之間的每個連接的重要性,對NLP的影響類似於計算機視覺中的卷積網絡,極大地提高了機器學習模型對各種語言任務(如自然語言理解)的效果還有機器翻譯的效果。

注意力之所以對語言數據特別有效,是因為理解人類語言通常需要跟蹤長期依賴關系。我們可能會先說“我們到達了紐約”,然后說“城市的天氣很好”。對於任何人類讀者來說,應該很清楚,最后一句話中的“城市”指的是“紐約”,但對於一個只基於在附近數據(如卷積網絡)中找到模式的模型,這種聯系可能無法檢測。

長期依賴性的問題可以通過使用遞歸網絡來解決,例如LSTMs,在變壓器到來之前,LSTMs實際上是NLP中的頂級模型,但即使是那些模型,也很難匹配特定的單詞。

變壓器中的全局注意力模型衡量了文本中任意兩個單詞之間每一個連接的重要性,這解釋了它們性能的優越之處。對於注意力不那么重要的序列數據類型(例如,日銷售額或股票價格等時域數據),遞歸網絡仍然具有很強的競爭力,可能仍是最佳選擇。

雖然在NLP等序列模型中,遠距離對象之間的依賴關系可能具有特殊的意義,但在圖像任務中,它們肯定不能被忽略。要形成一幅完整的圖畫,通常需要了解圖像的各個部分。

到目前為止,注意力模型在計算機視覺中一直表現不佳的原因在於縮放它們的難度(它們的縮放比例為N²,因此1000x1000圖像的像素之間的全套注意力權重將具有一百萬項)。

也許更重要的是,事實上,與文本中的單詞相反,圖片中的各個像素本身並不是很有意義,因此通過注意力將它們連接起來並沒有太大作用。

這篇新論文提出了一種方法,即不關注像素點,而是關注圖像的小塊區域(可能是標題中的16x16,盡管最佳塊尺寸實際上取決於模型的圖像尺寸和內容)。

上面的圖片(摘自論文)顯示了視覺變壓器的工作方式。

通過使用線性投影矩陣將輸入圖像中的每個色塊展平,並向其添加位置嵌入(學習的數值,其中包含有關該色塊最初在圖像中的位置的信息)。這是必需的,因為變壓器會處理所有輸入,而不考慮其順序,因此擁有此位置信息有助於模型正確評估注意力權重。額外的類標記連接到輸入(圖像中的位置0),作為要在分類任務中預測的類的占位符。

類似於2017版,該變壓器編碼器由多個注意力,規范化和完全連接的層組成,這些層具有殘差(跳過)連接,如圖中的右半部分所示。

在每個關注區域中,多個頭部可以捕獲不同的連接模式。如果你有興趣了解有關變壓器的更多信息,我建議閱讀Jay Alammar撰寫的這篇出色的文章。

輸出端完全連接的MLP頭可提供所需的類別預測。當然,與當今一樣,主模型可以在大型圖像數據集上進行預訓練,然后可以通過標准的遷移學習方法將最終的MLP頭微調為特定任務。

新模型的一個特點是,盡管根據本文的研究,它比卷積方法更有效地以更少的計算量獲得相同的預測精度,但隨着它接受越來越多的數據訓練,其性能似乎在不斷提高,這比其他模型更甚。

這篇文章的作者在一個包含3億的私有googlejft-300M數據集上訓練了視覺變換器圖像,從而在許多基准測試中都獲得了最先進的准確性。人們可以期待這個預先訓練過的模型很快就會發布出來,以便我們都可以試用。

看到神經注意力在計算機視覺領域的新應用,實在太令人興奮了!希望在未來的幾年里,在這種發展的基礎上,能取得更大的進步!

原文鏈接:https://medium.com/swlh/an-image-is-worth-16x16-words-transformers-for-image-recognition-at-scale-brief-review-of-the-8770a636c6a8

歡迎關注磐創AI博客站:
http://panchuang.net/

sklearn機器學習中文官方文檔:
http://sklearn123.com/

歡迎關注磐創博客資源匯總站:
http://docs.panchuang.net/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM