深度學習比賽入門——街景字符識別(一)


這是入門深度學習——具體來說是CV比賽的入門級比賽,有點類似手寫數字識別,具體的賽題鏈接如下:https://tianchi.aliyun.com/competition/entrance/531795/information
入門深度學習比賽,我想把參加比賽的全過程包括:賽題理解,數據處理(或者可能需要加上EDA),模型的選擇,模型的訓練與驗證,模型的集成(深度學習也可集成?)以及在過程中的思考與學習記錄下來

賽題理解與分析

開始一個比賽,首先做的事就是審題,包括任務背景,任務目標,所給數據,以及評判標准。任務目標和任務背景的理解有助於我們對業務有一定的認識,幫助我們對任務進行抽象建模,同時,較好的理解任務,還能幫助我們尋找類似的任務與賽題,從而可以借鑒之前所作的比賽或者相關的論文研究,使得我們可以站在巨人的肩膀上進行學習。
在本次比賽中,任務目標是對任意街景的圖片進行數字字符的識別。因為是關於圖像的比賽,所以第一反映是進行圖像的分類任務,也就是類似於手寫數字識別。而且,題目降低了難度,給出了每一個數字字符的位置,這樣,我們可以很方便的將目標進行定位,直接將目標數字裁剪出來,減少了周圍背景的干擾。
進一步的分析,本賽題相對於手寫數字,難度在於不同的圖片,其上的數字字符個數不相同,所以直接進行數字的分類任務似乎不太可能;同時,不定長度的問題也給任務帶來了一定的難度。對本賽題的初步分析,主要解決的問題有以下幾點:

  • 不同於單個數字的識別,直接進行分類即可,多數字字符的識別該如何進行解決;
  • 每張圖片數字字符個數不等,不定長度問題如何解決;
  • 背景干擾,圖片大小不等,分辨率影響,數字字符可能出現旋轉,縮放等,對識別可能有一定的影響;

初步的思考方案如下:

  • 圖像放入模型之前,需要進行的預處理,包括裁剪多余背景,去噪,二值化,圖像尺寸標准化等,對數據還可以進行數據的增強,以增強網絡模型的魯棒性;
  • 嘗試一些解決該類問題的論文模型,比如說經典的OCR以及結合深度學習的OCR模型,或者一些其他深度學習模型CRNN,再高級一點的還可以使用目標檢測

模型的選擇多種多樣,可以進行大量的嘗試,選擇其中的最好幾個,比賽的后期進行模型的融合,將成績進一步的提高。當然了,一個好的評判函數也是很重要的,本題比較簡單,只是正確率的構建,稍難一點的可能需要自己進行構建評判函數,以保證線下與線上的統一。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM