一.OCR簡介 參見http://baike.baidu.com/view/17761.htm?fr=ala0_1 大家參照,我第一次也是這么了解的,呵呵。高手見笑
現在市面上好多OCR 引擎,不過大多是收費的,價格不菲呀。。不適合我們學習研究。
而今天我們談到的Tesseract 是開源的產品,比較適合大家的口味吧。並且Tesseract 也是目前識別率較高的OCR,並不比其他引擎
差勁。網上介紹Tessnet2也是當時時間排名第三的識別引擎,只是后來慢慢不維護了,目前是Google在維護,大家都知道Google
在搞電子圖書館,每天都有不同類目的書被掃描成電子版,而下一步工作是什么。。。大家可以聯想。
Tessnet2 是用vc ++ 開發的,最中是生成Tessnet2.dll ,我們可以通過.net 來調用內部具體類庫實現識別。
Tessnet2的使用:
1.將Tessnet2.dll 添加到vs bin目錄,和添加.net程序集一樣。http://files.cnblogs.com/zhuxiangyu/tessnet2_32.rar 點擊鏈接下載Tessnet2.dll
2.用Tessnet2進行識別
Bitmap image = newBitmap("eurotext.tif");//識別圖像
tessnet2.Tesseractocr = new tessnet2.Tesseract();//聲明一個OCR類
ocr.SetVariable("tessedit_char_whitelist", "0123456789"); //設置識別變量,當前只能識別數字。
ocr.Init(@"c:\temp", "fra", false); //應用當前語言包。注,Tessnet2是支持多國語的。語言包下載鏈接:http://code.google.com/p/tesseract-ocr/downloads/list
List<tessnet2.Word> result = ocr.DoOCR(image, Rectangle.Empty);//執行識別操作
foreach (tessnet2.Word word in result) //遍歷識別結果。
Console.WriteLine("{0} : {1}", word.Confidence, word.Text);
看看 使用很簡單吧。給大家個實例http://files.cnblogs.com/zhuxiangyu/Tessnet2example.rar用來測試。