一、什么是OCR
OCR英文全稱是Optical Character Recognition,中文叫做光學字符識別。它是利用光學技術和計算機技術把印在或寫在紙上的文字讀取出來,並轉換成一種計算機能夠接受、人又可以理解的格式。這一概念最早於 1929 年由德國科學家 Tausheck 提出。信息資源數字化工作的目標對象,是大量甚至海量的紙質載體或固體載體形態的文獻資源,OCR 憑借自身的智能識別及批量操作性能得以在信息資源數字化工作中廣泛應用。
二、OCR的一般流程
圖像分析->預處理->行列切割->字符識別->后處理識別矯正
OCR 文本識別,是信息資源數字化 OCR 識別生命周期中的最后階段,是決定識別准確度的關鍵階段。
識別效果的好壞直接影響了后期的處理。
三、OCR的一般識別方法
1.谷歌開源OCR引擎Tesseract
Tesseract 是一個google支持的開源ocr項目,其項目地址:https://github.com/tesseract-ocr/tesseract。
其最新版本3.0已經支持中文OCR,並提供了一個命令行工具,但其識別效率仍然存在諸多問題。
2.OCR開放平台
例如百度的平台,自己寫個python腳本,調用開放平台的服務,返回的就是識別結果。但問題是代價高昂,最重要的問題是開發者無法后期控制,因為要借用別人的東西,就無法在識別上做改進,只能完善預處理和后期矯正部分。
3.字符模板匹配
對於一些場景簡單的識別,比如文字種類少,規整,清晰度較高的圖像,首先定義出文字模板,例如數字(0~9),字母(A~Z,a~z),然后用該模板滑動匹配圖像上的字符,這種策略雖然簡單但是相當有效。但是應用范圍太窄,遇到模板庫大的情況就不適用了。
4.OCR的一般識別方法
特征設計、特征提取、分類得出結果
第一步是特征設計和提取,特征設計就是要為字符設計它獨有的的特征,來為后面的特征分類做好准備。字符有啥特征呢?有結構特征,即字符的端點、交叉點、圈的個數、橫線豎線條數等等,都是可以利用的字符特征。比如“品”字,它的特征就是它有3個圈,6條橫線,6條豎線。除了結構特征,還有大量人工專門設計的字符特征,據說都能得到不錯的效果。最后再將這些特征送入分類器(SVM)做分類,得出識別結果。這種方式最大的缺點就是,人們需要花費大量時間做特征的設計,這是一件相當費工夫的事情。通過人工設計的特征(例如HOG)來訓練字符識別模型,此類單一的特征在字體變化,模糊或背景干擾時泛化能力迅速下降。而且過度依賴字符切分的結果,在字符扭曲、粘連、噪聲干擾的情況下,切分的錯誤傳播尤其突出。
5.基於深度學習下的CNN字符識別
在OCR系統中,人工神經網絡主要充當特征提取器和分類器的功能,輸入是字符圖像,輸出是識別結果。
但是神經網絡同樣包含缺點,其需要大量的訓練數據,並且耗時巨大。
四、OCR 文本識別階段識別准確度影響因素分析
文本識別階段 OCR 軟件的性能優劣主要體現在對形近字符的辨識、對圖像噪聲的免疫力、對標點符號的辨識、數字圖像預處理能力、能夠辨識的內容范圍、交互界面便捷性、軟件自學習功能等 7 個方面。
1.對形近字的辨識
形近字符(如“籍”和“藉”、“璧”和“壁”)之間在筆畫邊緣部分存在較大相似度,辨識過程中容易造成 OCR 軟件的誤判。
2.對數字圖像噪聲的免疫力
數字圖像的預處理操作,一般都對數字圖像中的噪聲進行了降噪處理。但是,受數字圖像預處理程度、文本型數字圖像自身質量等因素影響,在對文本型數字圖像進行 OCR 識別時數字圖像中往往仍然存在着不同程度的噪聲。
3.數字圖像的預處理能力
在對文本型數字圖像(尤其是原始印刷、排版質量欠佳的數字圖像)進行正式識別之前,需要借助 OCR 軟件的圖像預處理功能對數字圖像進行微調,微調效果對識別准確度有直接影響。OCR 軟件的圖像預處理功能主要包括圖像旋轉、傾斜矯正、剪切以及亮度、對比度、飽和度、清晰度調整等。
如何提高圖像預處理能力
(1)圖像傾斜矯正
文本型數字圖像中的字符一旦偏離水平或垂直方向,影響 OCR 軟件對其進行文本定位和字符分割,進而影響后續的識別准確度。因此,OCR 識別之前應進行數字圖像傾斜校正,OCR 軟件應具備自動校正和人工校正兩種校正功能。
(2)圖像反白
數字圖像經二值化處理之后,數字圖像中的字符圖案呈黑色,其余背景部分呈白色。經反白處理之后,數字圖像中的字符圖案呈白色,其余背景部分呈黑色。借助圖像反白處理,可以在黑色背景下把存在於數字圖像中的噪點凸顯出來,便於后續的降噪處理。
(3)圖像旋轉
因原始文獻資料印刷排版質量或者數字掃描成像階段操作不慎,容易造成文本型數字圖像在水平或垂直方向上產生一定角度的傾斜。為確保對文本型數字圖像的精確識別,OCR 軟件應具備圖像旋轉功能,一般應支持在順時針(或逆時針)方向上連續旋轉 90 度,並支持在順時針(或逆時針)方向上連續旋轉任意角度以供選擇。
(4)圖像剪裁
因原始文獻資料印刷排版質量欠佳,或流通使用過程中產生污損,或在數字掃描成像階段操作不慎,容易在文本型數字圖像邊沿或文字區域形成明顯的噪點。借助數字圖像剪裁功能,OCR軟件可以輕松去除這部分噪點。