C# 使用Tesseract-OCR-v5.0,實現驗證碼,中文,身份證識別


OCR(Optical Character Recognition):光學字符識別,是指對圖片文件中的文字進行分析識別,獲取的過程。
Tesseract:開源的OCR識別引擎,初期Tesseract引擎由HP實驗室研發,后來貢獻給了開源軟件業,后經由Google進行改進,消除bug,優化,重新發布。項目地址:https://github.com/tesseract-ocr

本文使用最新版本Tesseract-OCR-v5.0,實現驗證碼,中文,身份證識別,效果如下圖

演示程序結構
在vs2019創建WinForm窗體程序,添加相應的控件

程序執行

使用Process類,調用tesseract.exe執行圖片識別。注意這個要執行成功,要先安裝tesseract-ocr。具體安裝,設置環境變量請看上一文章<Tesseract-OCR-v5.0中文識別,訓練自定義字庫,提高圖片的識別效果>的第1到3步驟。

總結

本文演示了,C# 使用Tesseract-OCR-v5.0,實現驗證碼,中文,身份證識別。如果想提高圖像的識別率,參考上一文章。使用Tesseract-OCR基本上可以實現簡單識別了。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM