每天進步一點點-Tesseract 文字識別 - 碼上歡樂

相關內容簡體繁體

每天進步一點點-Tesseract 文字識別

本文轉載自查看原文 2019-09-25 17:32 3863

Tesseract 文字識別

是github上的開源文字識別軟件

下載與安裝	https://github.com/tesseract-ocr/tesseract/wiki
下載	https://github.com/UB-Mannheim/tesseract/wiki
數據文件下載	https://github.com/tesseract-ocr/tesseract/wiki/Data-Files
需要添加環境變量	D:\GitHub2019\tesseract-ocr\
返回的out.txt默認字符	utf8
訓練字庫下載	https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract-4.00
命令語法	https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc

前提條件：

1 在上面的地址下載安裝tesseract

2 添加安裝路徑到windows環境變量

3 下載自己需要的語言庫（官方已經訓練好）到tessdata目錄下

Path

Chi

簡單使用：

簡單使用:

tesseract [imagepath] [outputPath] -l [Language] [optional]

例如:tesseract C:\Users\ZR644\Desktop\tesseract-ocr\myscan.png C:\Users\ZR644\Desktop\tesseract-ocr\out -l chi_sim --psm 7

其中：

1 outputPath輸出是不需要加后綴的，只是文件名稱，這點有點奇怪

2 output格式是用utf8，有點編碼起默認是別的，造成識別失敗的假象

3 一開始識別不出不要緊，請按照圖片調整參數

4 有一個圖片文本占得很滿，查了資料說圖片要有一圈留白，僅供參考.

5 更多命令請參考本文一開始給出的命令語法頁面

c#調用

在Nuget上有封裝的tessercat，但是看了一下他的最新版本是用於tesseract-ocr 3.05.02的.NET包裝器，而目前最新的版本都4多了，所以不打算用了.

像上面一樣通過命令行的方式進行調用，然后讀取out.txt文件識別的內容就好了.

簡單例子：

做了一個不同psm參數識別同一張圖片的具體對比：

sample

下載地址：https://github.com/tiancai4652/IdentifyImageByTesseract

使用前請先安裝好，設置好環境變量，下載語言包到其目錄下

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 每天進步一點點-->函數fseek() 用法每天進步一點點------Allegro PCB 每天進步一點點------創建Microblaze軟核(一) 每天進步一點點------Xilinx FPGA開發工具 EDK SDK術語復利效應每天進步一點點到底指的是什么？每天進步一點點------Allegro 鋪銅、內電層分割每天進步一點點------Allegro 蛇形走線每天進步一點點------altium designer 實用的快捷鍵每天進步一點點------Modelsim添加Xilinx仿真庫的詳細步驟前端學習路線圖每天進步一點點

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM