javacv文字識別系列:
javaCV文字識別之1:基於google的tesserac ocr識別圖片中的文字,跨平台支持英文中文簡體繁體等各種字符識別
前言
本篇文章屬於javacv系列的擴展篇。
在此之前我們已經通過javacv實現了流媒體這塊的音視頻編解碼等等操作,當然還有圖像處理。雖然使用opencv也可以實現文字識別,但是識別率不高,所以來試試google開源的tesserac ocr看看效果。
我們分為三步就可以做到實現:
首先,我們要添加依賴;次之,准備資源(需要訓練好的語言包以及需要進行識別的圖片,這里會提供最新的英文版下載以及中文簡繁體下載地址);最后就開始編寫代碼。
廢話少說,立刻開始吧。
1、添加依賴
(1)gradle方式
dependencies {
compile group: 'org.bytedeco', name: 'tesseract-platform', version: '4.1.1-1.5.3'
}
(2)maven方式
<dependency>
<groupId>org.bytedeco</groupId>
<artifactId>tesseract-platform</artifactId>
<version>4.1.1-1.5.3</version>
</dependency>
(3)jar包方式
javacv的包太大,這個不用講了,建議用上面那兩個。
2、下載語言包
英文和簡體中文放在同一個壓縮包中,免費下載,不要積分。
(1)英文版:https://download.csdn.net/download/eguid_1/12404120
(2)簡體中文:https://download.csdn.net/download/eguid_1/12404120
(3)繁體中文:待上傳
完整閱讀本章:https://blog.csdn.net/eguid_1/article/details/106024626
---end---