導言:
transformer在這兩年大火,CV界廣泛應用transformer模型,充分吸收其idea到自己的領域。考慮到transformer本是應用於NLP的論文,其中很多內容都形成了共識,因此在論文中並未提及,就好像CV中論文提到圖像預處理使用center crop , color jitter,但不會詳細介紹這兩個,這就是CV領域的共識,其他領域的人看到這兩個將會很困惑,作為CV中人讀transformer會被很多共識內容所折磨,包括很多介紹transformer的博客知乎,都是站在NLP領域的角度寫的,因此共識部分都是一筆帶過,本文的出發點是要讓CV人讀得懂。
(注:本文是本人在內部分享會上的做的ppt,要轉換成文章太費時間,這里直接使用ppt圖片,原ppt很多內容都是口頭講的,且很多都是原論文引文,這里為了介紹清楚,在其基礎上加入了很多口頭上講的東西,並將英文改成了中文,希望讀者能諒解)
參考鏈接
1.《Attention Is All You Need》
2.https://zhuanlan.zhihu.com/p/54743941
3.https://juejin.cn/post/6844903680487981069#comment
4.《The Annotated Transformer》:http://nlp.seas.harvard.edu/2018/04/03/attention.html
5.https://zhuanlan.zhihu.com/p/47812375
6.https://link.zhihu.com/?target=https%3A//lilianweng.github.io/lil-log/2018/06/24/attention-attention.html
聲明:本公眾號所有內容都本着態度嚴謹、力求准確的寫文原則,所有原創文章都注重於原論文,極少參考部分都經過與原論文的對照,解釋合理、確認無誤才會寫上,當然仍不可避免會出現錯誤,歡迎讀者指出,本人將及時更正。(寫這條是因為看到的所有博客(大概四五篇)都在某一個地方寫錯了,本人在ppt中給出了具體位置)
本文來源於微信公眾號“ CV技術指南 ”的模型總結部分 。更多內容與最新技術動態盡在公眾號發布。
歡迎關注公眾號“CV技術指南”,主要進行計算機視覺方向的論文解讀,最新技術跟蹤,以及CV技術的總結。正在進行的系列有網絡模型解讀、行為識別和CV技術總結。
原創文章第一時間在公眾號中更新,博客只在有空時間才更新公眾號文章