吳恩達機器學習筆記 —— 19 應用舉例:照片OCR(光學字符識別)


本章講述的是一個復雜的機器學習系統,通過它可以看到機器學習的系統是如何組裝起來的;另外也說明了一個復雜的流水線系統如何定位瓶頸與分配資源。

更多內容參考 機器學習&深度學習

OCR的問題就是根據圖片識別圖片中的文字:


這種OCR識別的問題可以理解成三個步驟:

  1. 文本檢測
  2. 字符切分
  3. 字符識別

文本檢測

文本的檢測可以用行人的檢測來做,思路差不多。

我們定義幾個固定大小尺寸的窗口,從照片的左上角開始掃描。掃描出來的圖像做二分類,判斷是北京還是人物(文字)。然后根據圖像處理的一些慣用手段做二值化、膨脹,使得文字區域連通。最終根據規則選擇文本框就可以了,過濾那些規則不規整、寬度比高度小的矩形框框,剩下的就是目標文本框了。

字符切分

字符切分也可以理解成二分類問題,不過這里的滑動窗口是固定大小。根據窗口內的內容判斷目標是分隔,還是文本。

字符識別

最后的字符識別就很簡單了,找夠樣本,就可以做多分類了。跟手寫體識別一樣的玩法~

關於訓練的樣本

其實訓練的樣本可以根據已有的樣本進行成倍的擴充。比如在做文字識別的時候,根據現有的圖片做一些變形、噪聲、旋轉等,再比如針對一些文字替換背景等等。

關於系統的性能提升

針對系統准確性的提升可以把問題階段性的考慮,先判斷第一個環節的准確率,在判斷第二個環節。

選擇准確率影響最關鍵的節點進行優化。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM