CVPR 2021 論文大盤點-文本圖像篇


https://mp.weixin.qq.com/s/XOG6jXmpZv64VpkmLQVzyA

本文收集文本檢測與識別相關論文,包含任意形狀文本檢測、場景文本識別、手寫文本識別、文本分割、文本圖像檢索、視頻文本識別等,有趣的方向很多,共計 17 篇。

 

去年CVPR 該方向論文總結:

CVPR 2020 論文大盤點-文本圖像篇

 

大家可以在:

https://openaccess.thecvf.com/CVPR2021?day=all

按照題目下載這些論文。

 

如果想要下載所有CVPR 2021論文,請點擊這里:

CVPR 2021 論文開放下載了!

 

用於任意形狀文本檢測

 

1.Fourier Contour Embedding for Arbitrary-Shaped Text Detection


任意形狀的文本檢測所面臨的主要挑戰之一是設計一個好的文本實例表示法,好使網絡可以學習不同的文本幾何差。現有的大多數方法在圖像空間域中通過掩碼或直角坐標系中的輪廓點序列來模擬文本實例。
問題:掩碼表示法可能會導致昂貴的后處理,而點序列表示法對具有高度彎曲形狀的文本的建模能力可能有限。
方案:作者指出在傅里葉域對文本實例進行建模,並提出Fourier Contour Embedding(FCE)方法,將任意形狀的文本輪廓表示為compact signatures。進一步用骨干網、特征金字塔網絡(FPN)和反傅里葉變換(IFT)和非最大抑制(NMS)的簡單后處理來構建FCENet。與以前的方法不同,FCENet 首先預測文本實例的 compact Fourier signatures,然后在測試過程中通過 IFT 和 NMS 重建文本輪廓。
結果:實驗表明,即使是高度彎曲的形狀,在擬合場景文本的輪廓方面是准確和魯棒的也驗證了 FCENet 在任意形狀文本檢測方面的有效性和良好的通用性。FCENet 在 CTW1500 和 Total-Text 上優於最先進的(SOTA)方法,特別是在具有挑戰性的高度彎曲的文本子集上。
作者 | Yiqin Zhu, Jianyong Chen, Lingyu Liang, Zhanghui Kuang, Lianwen Jin, Wayne Zhang單位 | 華南理工大學;商湯;琶洲實驗室;上海交通大學;上海AI實驗室論文 | https://arxiv.org/abs/2104.10442
圖片
2.Progressive Contour Regression for Arbitrary-Shape Scene Text Detection
問題:當前最先進的場景文本檢測方法通常從自下而上的角度用局部像素或組件對文本實例進行建模,因此,對噪聲很敏感,並依賴於復雜的啟發式后處理,特別是對於任意形狀的文本。
該研究提出一個新的用於檢測任意形狀的場景文本框架:Progressive Contour Regression(PCR),在 CTW1500、Total-Text、ArT 和 TD500多個公共基准上取得了最先進的性能。包括彎曲的、波浪形的、長的、定向的和多語言的場景文本。
具體來說,利用輪廓信息聚合來豐富輪廓特征表示,可以抑制冗余和嘈雜的輪廓點的影響,對任意形狀的文本產生更准確的定位。同時,整合一個可靠的輪廓定位機制,通過預測輪廓的置信度來緩解假陽性。
作者 | Pengwen Dai, Sanyi Zhang, Hua Zhang, Xiaochun Cao單位 | 中科院;國科大;鵬城實驗室;天津大學論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Dai_Progressive_Contour_Regression_for_Arbitrary-Shape_Scene_Text_Detection_CVPR_2021_paper.pdf代碼 | https://github.com/dpengwen/PCR
圖片

 

3.TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text


本文介紹一個在 TextVQA 圖像上收集的大型任意場景文本識別數據集 TextOCR,以及一個端到端的模型 PixelM4C,該模型通過將文本識別模型作為一個模塊,可以直接在圖像上進行場景文本推理。
TextOCR,大型且多樣化,來自 TextVQA 的 28,134 幅自然圖像,有 100 萬個任意形狀的單詞標注(比現有的數據集大3倍),每張圖片有 32 個單詞。作為訓練數據集,在多個數據集上提高了 OCR 算法的精度 ;作為測試數據集,為社區提供新的挑戰。
在TextOCR上進行訓練,可以提供更好的文本識別模型,在大多數文本識別基准上超過最先進的水平。此外,在 PixelM4C 中使用 TextOCR 訓練的文本識別模塊,可以使用它的不同特征,甚至有可能提供反饋,這使得 PixelM4C超越了 TextVQA 的現有最先進方法。
通過 TextOCR 數據集和 PixelM4C 模型,在連接 OCR 和基於 OCR 的下游應用方面邁出了一步,並從直接在 TextOCR 上訓練的 TextVQA 結果中所看到的改進,希望該研究能夠同時推動這兩個領域的發展。
作者 | Amanpreet Singh, Guan Pang, Mandy Toh, Jing Huang, Wojciech Galuba, Tal Hassner單位 | Facebook論文 | https://arxiv.org/abs/2105.05486主頁 | https://textvqa.org/textocr
圖片

場景文本識別

 

4.What If We Only Use Real Datasets for Scene Text Recognition? Toward Scene Text Recognition With Fewer Labels


本次工作的研究目的是使用更少的標簽來運用 STR(場景文本識別) 模型。作者用只占合成數據 1.7% 的真實數據來充分地訓練 STR 模型。通過使用簡單的數據增廣和引入半監督和自監督的方法,利用數百萬真實的無標簽數據,進一步提高性能。作者稱該工作是邁向更少標簽的 STR 的墊腳石,並希望這項工作能促進未來關於這個主題的工作。
作者 | Jeonghun Baek, Yusuke Matsui, Kiyoharu Aizawa單位 | 東京大學論文 | https://arxiv.org/abs/2103.04400代碼 | https://github.com/ku21fan/STR-Fewer-Labels
圖片

5.Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition


提出 ABINet,用於場景本文識別,它具有自主性、雙向性以及迭代性。其中自主性是提出阻斷視覺和語言模型之間的梯度流動,以執行明確的語言建模;雙向性表現在,提出一種基於雙向特征表示的新型 bidirectional cloze network(BCN)作為語言模型;迭代性是提出一種語言模型迭代校正的執行方式,可以有效地緩解噪聲輸入的影響。此外,基於迭代預測的集合,提出一種自訓練方法,可以有效地從未標記的圖像中學習。
結果:實驗結果顯明,ABINet 在低質量圖像上具有優勢,並在幾個主流基准上取得了最先進的結果。此外,用集合自訓練法訓練的 ABINet 向實現人類水平的識別水平又進了一步。
作者 | Shancheng Fang, Hongtao Xie, Yuxin Wang, Zhendong Mao, Yongdong Zhang單位 | 中國科學技術大學論文 | https://arxiv.org/abs/2103.06495代碼 | https://github.com/FangShancheng/ABINet備注 | CVPR 2021 Oral
圖片

6.MOST: A Multi-Oriented Scene Text Detector with Localization Refinement


問題:改善在極端長寬比和不同尺度的文本實例時的文本檢測性能。
方案:Text Feature Alignment Module(TFAM),根據最初的原始檢測結果動態地調整特征的感受野;Position-Aware Non-Maximum Suppression(PA-NMS)模塊,選擇性地集中可靠的原始檢測,並排除不可靠的檢測。此外,還提出 Instance-wise IoU 損失,用於平衡訓練,以處理不同尺度的文本實例。
將此與 EAST 相結合,在各種文本檢測的標准基准上實現了最先進或有競爭力的性能,同時可以保持快速的運行速度。
作者 | Minghang He, Minghui Liao, Zhibo Yang, Humen Zhong, Jun Tang, Wenqing Cheng, Cong Yao, Yongpan Wang, Xiang Bai單位 | 華中科技大學;阿里;南大論文 | https://arxiv.org/abs/2104.01070圖片
7.Dictionary-guided Scene Text Recognition
本次研究,作者提出一種新的語言感知方法來解決場景文本識別中的視覺模糊性問題。該方法在訓練和推理階段都可以利用字典的力量,可以解決許多條件下的模糊性。另外,創建一個用於越南場景文本識別的新數據集:VinText,它在從多個類似字符中辨別一個字符方面帶來了新的挑戰。
在 TotalText、ICDAR13、ICDAR15 和新收集的 VinText 數據集上的實驗結果證明了該字典整合方法的優點。
作者 | Nguyen Nguyen, Thu Nguyen, Vinh Tran, Minh-Triet Tran, Thanh Duc Ngo, Thien Huu Nguyen, Minh Hoa單位 | VinAI研究等論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Nguyen_Dictionary-Guided_Scene_Text_Recognition_CVPR_2021_paper.pdf代碼 | https://github.com/VinAIResearch/dict-guided
圖片

8.Primitive Representation Learning for Scene Text Recognition


與常用的基於 CTC 和基於注意力的方法不同,作者通過學習原始表征並形成可用於並行解碼的視覺文本表征,提出一個新的場景文本識別框架。又提出一個 pooling aggregator 和一個 weighted aggregator,從 CNN 輸出的特征圖中學習原始表征,並使用 GCN 將原始表征轉換為視覺文本表征。所提出的原始表征學習方法可以被整合到基於注意力的框架中。並在英文和中文場景文本識別任務的實驗結果證明了所提出方法的有效性和高效率。
作者 | Ruijie Yan, Liangrui Peng, Shanyu Xiao, Gang Yao單位 | 清華大學論文 | https://arxiv.org/abs/2105.04286
圖片

文本識別與檢測

 

9.Implicit Feature Alignment: Learn to Convert Text Recognizer to Text Spotter


本次工作提出一個簡單而有效新范式:IFA,將 text recognizer 轉變為 detection-free text spotter,利用神經網絡的可學習對齊特性,可以很容易地集成到當前主流的文本識別器中。得到一種全新的推理機制:IFAinference。使普通的文本識別器能夠處理多行文本。
具體來說,作者將 IFA 整合到兩個最流行的文本識別流中(基於注意力和基於CTC),分別得到兩種新的方法:ADP 和 ExCTC。此外,還提出基於Wasserstein 的 Hollow Aggregation Cross-Entropy(WH-ACE)來抑制負面噪音,以幫助訓練 ADP 和 ExCTC。
實驗結果表明 IFA 在端到端文檔識別任務中取得了最先進的性能,同時保持了最快的速度,而 ADP 和 ExCTC 在不同應用場景的角度上相互補充。
作者 | Tianwei Wang, Yuanzhi Zhu, Lianwen Jin, Dezhi Peng, Zhe Li, Mengchao He, Yongpan Wang, Canjie Luo單位 | 華南理工大學;阿里等論文 | https://arxiv.org/abs/2106.05920
圖片
10.Sequence-to-Sequence Contrastive Learning for Text Recognition

本次工作提出一個對比性學習方法:SeqCLR,用於文本識別。將每個特征圖看作是一系列的獨立實例,得到 sub-word 級上的對比學習,例如每個圖像提取幾個正面的配對和多個負面的例子。另外,為獲得有效的文本識別視覺表征,進一步提出新的增強啟發式方法、不同的編碼器架構和自定義投影頭。
在手寫文本和場景文本上的實驗表明,當用學到的表征訓練文本解碼器時,所提出方法優於非序列對比法。此外,當監督量減少時,與監督訓練相比,SeqCLR 明顯提高了性能,而當用 100% 的標簽進行微調時,SeqCLR 在標准手寫文本識別基准上取得了最先進的結果。
作者 | Aviad Aberdam, Ron Litman, Shahar Tsiper, Oron Anschel, Ron Slossberg, Shai Mazor, R. Manmatha, Pietro Perona單位 | 以色列理工學院;亞馬遜等論文 | https://arxiv.org/abs/2012.10873
圖片
11.Self-attention based Text Knowledge Mining for Text Detection
本文提出 STKM,可以進行端到端訓練,以獲得一般的文本知識,用於下游文本檢測任務。是首次嘗試為文本檢測提供通用的預訓練模型。並證明 STKM 可以在不同的基准上以很大的幅度提高各種檢測器的性能。
作者 | Qi Wan, Haoqin Ji, Linlin Shen單位 | 深圳市人工智能與機器人研究院;深圳大學論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Wan_Self-Attention_Based_Text_Knowledge_Mining_for_Text_Detection_CVPR_2021_paper.pdf代碼 | https://github.com/CVI-SZU/STKM
圖片

12.A Multiplexed Network for End-to-End, Multilingual OCR


研究問題:當前的文本檢測方法主要集中在拉丁字母語言上,甚至經常只有不區分大小寫的英文字符。
提出方案:E2E-Multiplexed Multilingual Mask TextSpotter,在 word 級上進行腳本識別,並以不同的識別頭處理不同的腳本,同時保持一個統一的損失,以及優化腳本識別和多個識別頭。
結果:實驗結果表明,所提出方法在端到端識別任務中優於參數數量相似的single-head 模型,並在 MLT17 和 MLT19 聯合文本檢測和腳本識別基准上取得了最先進的結果。
作者 | Jing Huang, Guan Pang, Rama Kovvuri, Mandy Toh, Kevin J Liang, Praveen Krishnan, Xi Yin, Tal Hassner單位 | Facebook論文 | https://arxiv.org/abs/2103.15992
圖片

13.TAP: Text-Aware Pre-training for Text-VQA and Text-Caption


本次工作提出 Text-Aware Pre-training(TAP),用於 Text-VQA 和 Text-Caption 兩個任務。目的是閱讀和理解圖像中的場景文本,分別用於回答問題和生成圖像字幕。與傳統的視覺語言預訓練不同的是,傳統的視覺語言預訓練不能捕捉到場景文本及其與視覺和文本模態的關系。而 TAP 則明確地將場景文本(由OCR引擎生成)納入預訓練中。
通過masked language modeling(MLM), image-text(contrastive) matching(ITM)和relative(spatial)position prediction (RPP)三個預訓練任務,TAP 可以幫助模型在三種模式中學習更好的對齊表示:文本字、視覺目標和場景文本。由於這種對齊的表征學習,在相同的下游任務數據集上進行預訓練,與非 TAP 基線相比,TAP 將TextVQA 數據集的絕對准確率提高了 +5.4%。
此外,作者還創建一個基於 Conceptual Caption 數據集的大規模數據集:OCR-CC,包含 140 萬個場景文本相關的圖像-文本對。在 OCR-CC 數據集上進行預訓練后,所提出方法在多個任務上以較大的幅度超過了現有技術水平,即在 TextVQA 上的准確率為 +8.3%,在 ST-VQA 上的准確率為+8.6%,在 TextCaps 上的 CIDEr 得分為 +10.2。
作者 | Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei Florencio, Lijuan Wang, Cha Zhang, Lei Zhang, Jiebo Luo單位 | 羅切斯特大學;微軟論文 | https://arxiv.org/abs/2012.04638
圖片

 

場景文本檢索

 

14.Scene Text Retrieval via Joint Text Detection and Similarity Learning


場景文本檢索的目的是定位和搜索圖像庫中的所有文本實例,這些文本與給定的查詢文本相同或相似。這樣的任務通常是通過將查詢文本與由端到端場景文本識別器輸出的識別詞相匹配來實現。
本次工作,作者通過直接學習查詢文本和自然圖像中每個文本實例之間的跨模態相似性來解決這個問題。具體來說,建立一個端到端的可訓練網絡,來共同優化場景文本檢測和跨模態相似性學習的程序。這樣一來,場景文本檢索就可以通過對檢測到的文本實例與學習到的相似性進行排序來簡單地進行。
在三個基准數據集上的實驗表明,所提出方法始終優於最先進的場景文 spotting/檢索方法。特別是,所提出的聯合檢測和相似性學習的框架取得了明顯優於分離方法的性能。
作者 | Hao Wang, Xiang Bai, Mingkun Yang, Shenggao Zhu, Jing Wang, Wenyu Liu單位 | 華中科技大學;華為論文 | https://arxiv.org/abs/2104.01552代碼 | https://github.com/lanfeng4659/STR-TDSL
圖片

手寫文本識別

 

15.MetaHTR: Towards Writer-Adaptive Handwritten Text Recognition


本文介紹一個 writer-adaptive HTR 問題,即模型在推理過程中只用很少的樣本就能適應新的書寫風格。

作者 | Ayan Kumar Bhunia, Shuvozit Ghose, Amandeep Kumar, Pinaki Nath Chowdhury, Aneeshan Sain, Yi-Zhe Song單位 | 薩里大學等論文 | https://arxiv.org/abs/2104.01876圖片

文本分割

 

16.Rethinking Text Segmentation: A Novel Dataset and A Text-Specific Refinement Approach


文本分割是許多現實世界中與文本相關任務的先決條件,例如文本樣式的遷移和場景文本擦除。但由於缺乏高質量的數據集和專門的調查,該先決條件在許多工作中被作為一種假設,並在很大程度上被忽視。
基於上述原因,作者提出 TextSeg,一個大規模的細致標注的文本數據集,包含六種類型的標注:word- and character-wise bounding polygons, masks 和 transcriptions。還設計一個 Text Refinement Network (TexRNet),是一種全新的文本分割方法,能夠適應文本的獨特屬性,一些往往給傳統分割模型帶來負擔的屬性,如非凸形邊界、多樣化的紋理等。設計有效的網絡模塊(即關鍵特征池和基於注意力的相似性檢查)和損失(即 trimap loss 和 glyph discriminator)來解決這些挑戰,例如,不同的紋理和任意的尺度/形狀。
在 TextSeg 數據集以及其他現有的數據集上的實驗證明,與其他最先進的分割方法相比,TexRNet 始終能將文本分割性能提高近 2%。
作者 | Xingqian Xu, Zhifei Zhang, Zhaowen Wang, Brian Price, Zhonghao Wang, Humphrey Shi單位 | UIUC;Adobe;俄勒岡大學論文 | https://arxiv.org/abs/2011.14021代碼 | https://github.com/SHI-Labs/Rethinking-Text-Segmentation
圖片

視頻文本檢測


17.Semantic-Aware Video Text Detection

一些現有的視頻文本檢測方法都是通過外觀特征來對文本進行追蹤,這些特征又很容易受到視角和光照變化的影響。而與外觀特征相比,語義特征是匹配文本實例的更有力線索。
本次工作提出一個端到端的可訓練的視頻文本檢測器,是基於語義特征來跟蹤文本。
首先,引入一個新的字符中心分割分支來提取語義特征,它編碼字符的類別和位置。然后,提出一個新的 appearance-semanticgeometry 描述器來跟蹤文本實例,其中語義特征可以提高對外觀變化的魯棒性。
另外,為了克服字符級標注的不足,又提出一個弱監督字符中心檢測模塊,它只使用字級標注的真實圖像來生成字符級標簽。
在三個視頻文本基准 ICDAR 2013 Video、Minetto 和 RT-1K,以及兩個中文場景文本基准 CASIA10K 和 MSRA-TD500 上取得了最先進的性能。
作者 | Wei Feng, Fei Yin, Xu-Yao Zhang, Cheng-Lin Liu單位 | 中科院;國科大論文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Feng_Semantic-Aware_Video_Text_Detection_CVPR_2021_paper.pdf
圖片


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM