OCR

OCR(Optical Character Recognition):光學字符識別（英語：Optical Character Recognition，OCR）是指對文本資料的圖像文件進行分析識別處理，獲取文字及版面信息的過程。

OCR技術非常專業，一般多是印刷、打印行業的從業人員使用，可以快速的將紙質資料轉換為電子資料。關於中文OCR，目前國內水平較高的有清華文通、漢王、尚書，其產品各有千秋，價格不菲。國外 OCR發展較早，像一些大公司，如IBM、微軟、HP等，即使沒有推出單獨的OCR產品，但是他們的研發團隊早已掌握核心技術，將OCR功能植入了自身的軟件系統。

OCR識別方法：

Tesseract（Google）:

Tesseract是一個光學字符識別引擎，支持多種操作系統。^[1]Tesseract是基於Apache許可證的自由軟件^[2]，自2006 年起由Google贊助開發^[3]。2006年，Tesseract被認為是最精准的開源光學字符識別引擎之一。^[2]^[4]

Tesseract的OCR引擎最先由HP實驗室於1985年開始研發，至1995年時已經成為OCR業內最准確的三款識別引擎之一。然而，HP不久便決定放棄OCR業務，Tesseract也從此塵封。

數年以后，HP意識到，與其將Tesseract束之高閣，不如貢獻給開源軟件業，讓其重煥新生－－2005年，Tesseract由美國內華達州信息技術研究所獲得，並求諸於Google對Tesseract進行改進、消除Bug、優化工作。

Tesseract目前已作為開源項目發布，最新的穩定版本是3.05.01，於2017年6月1日發布。最新的3.05源代碼可從GitHub上的3.05分支獲得。新的基於LSTM的4.0版本的源代碼可從GitHub上的主分支獲得。請注意，該分支正在積極開發中。

Azure（微軟）：

其它大公司的OCR開放平台：

1. Asprise Ocr：商業版本

2.ABBYY FineReader

3.CuneiForm/OpenOCR

....

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Java OCR 圖像智能字符識別技術，可識別中文人工智能APP-物體識別圖像識別技術的原理是什么？ Java OCR tesseract 圖像智能字符識別技術 Java實現人工智能是什么關於人工智能和python 人工智能-搜索人工智能教程大話人工智能 GAITC 2019全球人工智能技術大會（南京）