我們都討厭對文章進行冗長而毫無意義的介紹所以我就直奔主題了。2021年還有10天就過去了, 以下是我認為 2021 年最有趣、最有前途的深度學習論文。
本篇文章的目的是簡單地解釋它們,並結合非常簡單/復雜的冗長文字,這樣可以讓本文對初學者和有知識的人同時都有一定的幫助。
說明:本文的主題的選擇是個人的並且非常有偏見,它們將涵蓋更多的計算機視覺主題,而NLP,GANs會比較少,后面我們還會梳理更多論文的推薦文章。
CLIP
視覺+語言的多模態學習變得流行的原因就是這篇 OpenAI 論文,它可以更輕松地擴展圖像識別任務,因為它不需要耗時的手動標記。它可以從原始文本中學習而不需要手動確定標簽,並且在幾個著名的數據集中獲得了最先進的結果。
這是一個新的學習概念嗎?不是,但它是迄今為止最有“野心的”的。OpenAI收集了一個包含 4 億個圖像+文本對的數據集來訓練這個模型:對於文本編碼使用修改后的 Transformer 架構,對於圖像編碼使用 ResNet-50、ResNet-101、EfficientNet 和 Vision Transformers(均已修改)。通過對比測試表現最好的是 Vision Transformer ViT-L/14。
它是如何工作的?理論非常的簡單:對比學習(Contrastive Learning),一種眾所周知的zeroshot和自監督學習技術。給定一對帶有文本描述的圖像,將它們的特征靠的近一些。如果給定一對文本描述錯誤的圖像,將它們的特征拉遠。這樣在用句子查詢圖像時,越接近的就是“更正確”的。
帶有 N 個文本描述的 N 個圖像分別使用圖像和文本編碼器進行編碼,以便將它們映射到較低維的特征空間。接下來使用另一個映射,從這些特征空間到混合特征空間的簡單線性投影映射稱為多模態嵌入空間,通過余弦相似度(越接近越相似)使用正+負的對比學習對它們進行比較。

CLIP 能夠解決多個文本表示同一圖像的問題(即多義性),並且在一些最著名的數據集(如 ImageNet、CIFAR 和 Pascal VOC)上的表現優於最先進的模型。此外由於它使用對比學習所以它是一個zeroshot的學習器,可以比以前的模型更好地泛化到未出現的類別。
擴散模型(Diffusion Models)
我討厭 GAN的主要原因是它學習非常不穩定,需要花費大量時間進行微調,尤其是英偉達在 GitHub 中實現的 StyleGAN 。如果你也跟我的想法一樣,那么GANs不再是圖像生成和翻譯的最先進的技術,這個你會相信嗎?替換掉GANs的是 VQ-VAE 嗎?基於流的生成模型Generative flows?都不是。

完整文章:
