OCR(Optical Character Recognition):光學字符識別,是指對圖片文件中的文字進行分析識別,獲取的過程。
Tesseract:開源的OCR識別引擎,初期Tesseract引擎由HP實驗室研發,后來貢獻給了開源軟件業,后經由Google進行改進,消除bug,優化,重新發布。項目地址:https://github.com/tesseract-ocr
本文使用最新版本Tesseract-OCR-v5.0,實現驗證碼,中文,身份證識別,效果如下圖
演示程序結構
在vs2019創建WinForm窗體程序,添加相應的控件
程序執行
使用Process類,調用tesseract.exe執行圖片識別。注意這個要執行成功,要先安裝tesseract-ocr。具體安裝,設置環境變量請看上一文章<Tesseract-OCR-v5.0中文識別,訓練自定義字庫,提高圖片的識別效果>的第1到3步驟。
總結
本文演示了,C# 使用Tesseract-OCR-v5.0,實現驗證碼,中文,身份證識別。如果想提高圖像的識別率,參考上一文章。使用Tesseract-OCR基本上可以實現簡單識別了。