Tesseract：簡單的Java光學字符識別

本文轉載自查看原文 2019-08-28 21:59 697 spring/ spring boot/ 微服務/ java/ microservice/ springmvc

1.1 介紹

開發具有一定價值的符號是人類特有的特征。對於人們來說識別這些符號和理解圖片上的文字是非常正常的事情。與計算機那樣去抓取文字不同，我們完全是基於視覺的本能去閱讀它們。

另一方面，計算機的工作需要具體的和有組織的內容。它們需要數字化的表示，而不是圖形化的。

有時候，這是不可能的。有時，我們希望自動化的完成用雙手從圖像重寫文本的任務。

針對這些任務，光學字符識別（OCR）被設計成一種允許計算機以文本形式“閱讀”圖形化內容的方法，和人類工作的方式相似。雖然這些系統相對准確，但仍然可能有相當大的偏差。即便如此，修復系統的錯誤結果也遠比手工從頭開始要更加容易和快速。

就像所有的系統一樣，本質上是相似的，光學字符識別軟件在准備好的數據集上進行訓練，這些數據集提供了足夠多的數據用來幫助學習字符間的差異。如果我們想讓結果更加准確，那么這些軟件如何學習也是非常重要的話題，不過這將是另外一篇文章的內容了。

與其重新造輪或者想出一個非常復雜（但有用）的解決方案，不如我們先坐下來看看已有的解決方案。

1.2 Tesseract

科技巨頭 Google 一直在開發一個 OCR 引擎 Tesseract ，它從最初誕生到現在已有數十年的歷史。它為許多語言提供了API，不過我們將專注於 Tesseract 的 Java API 。

很容易使用 Tesseract 來實現一個簡單的功能。它主要用於讀取計算機在黑白圖片上生成的文字，並且結果的准確度較好。但這不是針對真實世界的文本。

對於現實世界中，我們最好使用像谷歌 Vision 這樣的更高級的光學字符識別軟件，這將在另一篇文章中討論。

1.2.1 Maven依賴

我們只需要簡單的添加一個依賴，就可以將引擎引入到我們的項目：

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>3.2.1</version>
</dependency>

1.2.2 光學字符識別

使用 Tesseract 毫不費力：

Tesseract tesseract = new Tesseract();
tesseract.setDatapath("E://DataScience//tessdata");
System.out.println(tesseract.doOCR(new File("...")));

我們先實例化一個 Tesseract 實例，然后為已訓練好的 LSTM （長短期記憶網絡）模型設置數據路徑。

數據可以從官方GitHub帳號處下載。

然后我們調用 doOCR() 方法，該方法接受一個文件參數並且返回一個字符串——提取的內容。

讓我們給它提供一張有着大而清晰的黑色字符的白色背景圖片：

file

提供這樣一張圖片會獲得完美的結果：

Optical Character Recognition in Java is made easy with the help of Tesseract'

不過這張圖片掃描起來過於簡單了。它已經被歸一化，而且有高分辨率和一致的字體。

讓我們來試試在紙上手寫一些字符並將該圖片提供給應用程序，這將會發生些什么呢：

file

我們可以立即看到結果的改變：

A411“, written texz: is different {mm compatar generated but

有一些單詞十分准確，並且你可以很輕松的辨認出 “written text is different from computer generated” ，但是第一個和最后一個單詞差得有點多。

現在，為了讓程序使用起來更簡單，我們把它轉換成一個十分簡單的 Spring Boot 應用程序，用更加舒適的圖形化界面來展示結果。

1.3 實現

1.3.1 Spring Boot應用程序

首先，從使用Spring Initializr創建我們的項目開始。它包含spring-boot-starter-web和spring-boot-starter-thymeleaf依賴。然后我們手動導入Tesseract：

file

1.3.2 控制器

該應用程序只需要一個控制器，它將為我們提供兩個頁面的展示、處理圖片上傳和光學字符識別功能：

@Controller
public class FileUploadController {

    @RequestMapping("/")
    public String index() {
        return "upload";
    }

    @RequestMapping(value = "/upload", method = RequestMethod.POST)
    public RedirectView singleFileUpload(@RequestParam("file") MultipartFile file,
                                   RedirectAttributes redirectAttributes, Model model) throws IOException, TesseractException {

        byte[] bytes = file.getBytes();
        Path path = Paths.get("E://simpleocr//src//main//resources//static//" + file.getOriginalFilename());
        Files.write(path, bytes);

        File convFile = convert(file);
        Tesseract tesseract = new Tesseract();
        tesseract.setDatapath("E://DataScience//tessdata");
        String text = tesseract.doOCR(convFile);
        redirectAttributes.addFlashAttribute("file", file);
        redirectAttributes.addFlashAttribute("text", text);
        return new RedirectView("result");
    }

    @RequestMapping("/result")
    public String result() {
        return "result";
    }

    public static File convert(MultipartFile file) throws IOException {
        File convFile = new File(file.getOriginalFilename());
        convFile.createNewFile();
        FileOutputStream fos = new FileOutputStream(convFile);
        fos.write(file.getBytes());
        fos.close();
        return convFile;
    }
}

Tesseract 可以和Java的 File 類一起工作，但是不支持表單上傳的 MultipartFile 類。為了便於處理，我們添加了一個簡單的 convert() 方法，它將 MultipartFile 對象轉換成一個普通的 File 對象。

一旦我們利用 Tesseract 提取出了文本，我們只需將該文本和掃描的圖像一起添加到模型當中，然后附加到重定向的展示頁面 - result。

1.3.3 展示頁面

現在，讓我們定義一個包含簡單文件上傳表單的展示頁面：

<html>
<body>
<h1>Upload a file for OCR:</h1>

<form method="POST" action="/upload" enctype="multipart/form-data">
    <input type="file" name="file" /><br/><br/>
    <input type="submit" value="Submit" />
</form>

</body>
</html>

以及一個結果頁面：

<html xmlns:th="http://www.thymeleaf.org">
<body>

<h1>Extracted Content:</h1>
<h2>><span th:text="${text}"></span></h2>

<p>From the image:</p>
<img th:src="'/' + ${file.getOriginalFilename()}"/>
</body>
</html>

運行這個應用程序將會有一個簡單的交互界面迎接我們：
file

添加一個圖片並提交它，屏幕上的結果將會包含提取的文本和上傳的圖片：
file

成功了！

1.4 結論

利用谷歌的 Tesseract 引擎，我們搭建了一個十分簡單的應用，它接受從表單提交來的圖片，從中提取文本內容，最后將結果和圖片一起返回給我們。

由於我們只使用了 Tesseract 有限的功能，所以這不是一個特別有用的應用程序。而且該應用程序對於演示目的之外的任何其他用途都過於簡單，但是它可以作為一個有趣的工具來實現和測試。

當你想把內容數字化時，光學字符識別可以很快上手，特別是針對文檔。他們很容易被掃描，並且提取的內容准確度也較好。當然，為了避免潛在的錯誤，對結果文檔進行校對總是明智的。

8月福利准時來襲，關注公眾號

后台回復：003即可領取7月翻譯集錦哦~

往期福利回復：001，002即可領取！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 OCR光學字符識別--STN-OCR 測試 python3光學字符識別模塊tesserocr與pytesseract halcon學習_字符識別1 車牌識別LPR（八）-- 字符識別基於BP神經網絡的簡單字符識別算法自小結(C語言版) EasyPR源碼剖析（9）：字符識別數字圖像字符識別——數字識別 CRNN中英文字符識別基於opencv的手寫數字字符識別 HALCON中OCR字符識別一些技巧