NET 2.0 OCR文字識別技術(Tesseract 引擎)[轉]


一.OCR簡介  參見http://baike.baidu.com/view/17761.htm?fr=ala0_1  大家參照,我第一次也是這么了解的,呵呵。高手見笑

   現在市面上好多OCR 引擎,不過大多是收費的,價格不菲呀。。不適合我們學習研究。

 而今天我們談到的Tesseract 是開源的產品,比較適合大家的口味吧。並且Tesseract 也是目前識別率較高的OCR,並不比其他引擎

 差勁。網上介紹Tessnet2也是當時時間排名第三的識別引擎,只是后來慢慢不維護了,目前是Google在維護,大家都知道Google

   在搞電子圖書館,每天都有不同類目的書被掃描成電子版,而下一步工作是什么。。。大家可以聯想。

 

 

Tessnet2 是用vc ++ 開發的,最中是生成Tessnet2.dll ,我們可以通過.net 來調用內部具體類庫實現識別。

Tessnet2的使用:

1.將Tessnet2.dll 添加到vs bin目錄,和添加.net程序集一樣。http://files.cnblogs.com/zhuxiangyu/tessnet2_32.rar 點擊鏈接下載Tessnet2.dll

2.用Tessnet2進行識別

 

Bitmap image = newBitmap("eurotext.tif");//識別圖像
tessnet2.Tesseractocr = new tessnet2.Tesseract();//聲明一個OCR類
ocr.SetVariable("tessedit_char_whitelist", "0123456789"); //設置識別變量,當前只能識別數字。
ocr.Init(@"c:\temp", "fra", false); //應用當前語言包。注,Tessnet2是支持多國語的。語言包下載鏈接:http://code.google.com/p/tesseract-ocr/downloads/list
List<tessnet2.Word> result = ocr.DoOCR(image, Rectangle.Empty);//執行識別操作
foreach (tessnet2.Word word in result) //遍歷識別結果。
 Console.WriteLine("{0} : {1}", word.Confidence, word.Text);

 看看 使用很簡單吧。給大家個實例http://files.cnblogs.com/zhuxiangyu/Tessnet2example.rar用來測試。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM