摘要:本文介紹幾篇關於自然場景下文字擦除的論文工作。
圖像文字擦除方法
給定一幅自然場景圖像,只將圖像中文字區域抹去而不改動其他區域像素值的方法稱為文字擦除算法。該方法在隱私保護,身份信息篡改,數據增廣等領域有着廣泛的應用和研究前景。
受傳統生成對抗網絡(GAN)算法的啟發,基於深度學習的文字擦除算法都采用了類似的生成器+判別器的結構,其損失函數為:
- 整個式子由兩項構成。x表示真實圖片,z表示輸入G網絡的噪聲,而G(z)表示G網絡生成的圖片。
- D(x)表示D網絡判斷真實圖片是否真實的概率(因為x就是真實的,所以對於D來說,這個值越接近1越好)。而D(G(z))是D網絡判斷G生成的圖片的是否真實的概率。
- G的目的:上面提到過,D(G(z))是D網絡判斷G生成的圖片是否真實的概率,G應該希望自己生成的圖片“越接近真實越好”。也就是說,G希望D(G(z))盡可能的大,這時V(D, G)會變小。因此我們看到式子的最前面的記號是min_G。
- D的目的:D的能力越強,D(x)應該越大,D(G(z))應該越小。這時V(D,G)會變大。因此式子對於D來說是求最大(max_D)。
文字擦除可以分為兩個子任務:1)文字區域定位。2)文字內容擦除。Ensnet [1] 提出了一種端到端的文字擦除算法,該方法將兩個子任務合並,並讓一個網絡進行端到端的文字擦除(圖1所示)。最后通過判別器和多種損失函數指導生成器的學習。
圖1. Ensnet 算法結構
為了讓網絡能夠更好地感知文字內容的位置信息,Erasenet [2]進一步引入了一個mask分支進行學習(圖2),同時提出了一個新的真實文字擦除數據集,為文字擦除研究領域提供了一個更好的對比基准(圖3)。
圖2. Erasenet 網絡
圖3. 真實場景的文字擦除數據集
為了將兩個子任務進行更好的學習,從而實現更准確的文字擦除結果,MTRNet[3]在輸入引入文字分割結果,讓網絡能夠感知文字區域的位置信息,從而降低任務難度,實現更准確的擦除結果。Bian等人[5]通過一種級聯的結構,實現對具體的字形感知。但是由於需要提前知道文字區域的准確位置信息,所以這些方法具有一定的局限性。MTRNet++[4]在STRNet基礎上進行了改進(圖4),通過引入一個微調子網絡降低了整體網絡對輸入位置信息的依賴性,從而實現更魯棒的文字擦除算法。
圖4. MTRNet++網絡
總結與思考
可以看到,現階段深度學習的文字檢測方法都是基於GAN網絡框架的,那么,是否有別的方法能夠實現GAN相同的效果?區別於傳統大面積pixel-to-pixel的任務,文字擦除大多只涉及小區域的像素修改,筆者認為attention在未來可以成為一個新的解決思路。
參考文獻
[1] Zhang, Shuaitao, et al. "Ensnet: Ensconce text in the wild." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. No. 01. 2019.
[2] Liu, Chongyu, et al. "EraseNet: End-to-End Text Removal in the Wild." IEEE Transactions on Image Processing 29 (2020): 8760-8775.
[3] Tursun, Osman, et al. "Mtrnet: A generic scene text eraser." 2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2019.
[4] Tursun, Osman, et al. "MTRNet++: One-stage mask-based scene text eraser." Computer Vision and Image Understanding 201 (2020): 103066.
[5] Bian, Xuewei, et al. "Scene text removal via cascaded text stroke detection and erasing." arXiv preprint arXiv:2011.09768 (2020).
本文分享自華為雲社區《技術綜述九:自然場景圖像的文字擦除算法介紹》,原文作者:我想靜靜。