OCR
OCR(Optical Character Recognition):光學字符識別(英語:Optical Character Recognition,OCR)是指對文本資料的圖像文件進行分析識別處理,獲取文字及版面信息的過程。
OCR技術非常專業,一般多是印刷、打印行業 的從業人員使用,可以快速的將紙質資料轉換為電子資料。關於中文OCR,目前國內水平較高的有清華文通、漢王、尚書,其產品各有千秋,價格不菲。國外 OCR發展較早,像一些大公司,如IBM、微軟、HP等,即使沒有推出單獨的OCR產品,但是他們的研發團隊早已掌握核心技術,將OCR功能植入了自身的 軟件系統。
OCR識別方法:
Tesseract(Google):
Tesseract是一個光學字符識別引擎,支持多種操作系統。[1]Tesseract是基於Apache許可證的自由軟件[2],自2006 年起由Google贊助開發[3]。2006年,Tesseract被認為是最精准的開源光學字符識別引擎之一。[2][4]
Tesseract的OCR引擎最先由HP實驗室於1985年開始研發,至1995年時已經成為OCR業內最准確的三款識別引擎之一。然而,HP不久便決定放棄OCR業務,Tesseract也從此塵封。
數年以后,HP意識到,與其將Tesseract束之高閣,不如貢獻給開源軟件業,讓其重煥新生--2005年,Tesseract由美國內華達州信息技術研究所獲得,並求諸於Google對Tesseract進行改進、消除Bug、優化工作。
Tesseract目前已作為開源項目發布,最新的穩定版本是3.05.01,於2017年6月1日發布。最新的3.05源代碼可從GitHub上的3.05分支獲得。新的基於LSTM的4.0版本的源代碼可從GitHub上的主分支獲得。請注意,該分支正在積極開發中。
Azure(微軟):
其它大公司的OCR開放平台:
1. Asprise Ocr:商業版本
2.ABBYY FineReader
3.CuneiForm/OpenOCR
....
