C# OCR識別

本文轉載自查看原文 2020-05-08 14:46 8676 C#

C# 識別文字我試驗過的有兩種，
1.使用開源庫tesseract，地址：https://github.com/tesseract-ocr/tesseract
tesseract訓練的語言包：https://github.com/tesseract-ocr/tessdata
有專門針對C#的封裝：https://github.com/charlesw/tesseract
C# Demo地址：https://github.com/charlesw/tesseract-samples
2.調用百度API,百度的API已經開源了：https://github.com/Baidu-AIP/dotnet-sdk

一、使用開源庫tesseract
新建一個Winform的項目，打開Nuget程序管理包，搜索Tesseract,選擇第一個，不要選擇Tesseract.Net.SDK,因為這個是收費的！！！，等你用着用着就彈出框來提示收費！！！

安裝完畢之后，去上面的Github上面下載語言包：

將語言包下載之后放在程序目錄的tessdata文件夾下面：

下面開始寫代碼了，參考Demo里，來寫一波：以下函數是識別圖片里的商品號：

private List<string> GetProductNumberFromImage(string imagePath)
{
            List<string> resultList = new List<string>();
            using (var ocr = new TesseractEngine(Path.Combine(AppDomain.CurrentDomain.BaseDirectory, "tessdata"), "chi_sim",EngineMode.Default))
            {
                var pix = PixConverter.ToPix(new Bitmap(imagePath));
                using (var page = ocr.Process(pix))
                {
                    string text = page.GetText();
                    if (!string.IsNullOrEmpty(text))
                    {
                        string pattern = @"品號([\s\S])(\d+)";
                        Regex regex = new Regex(pattern);
                        var mathResult = regex.Matches(text);
                        foreach (Match item in mathResult)
                        {
                            if (item.Groups.Count >= 2)
                            {
                                resultList.Add(item.Groups[2].Value);
                            }
                            else
                            {
                                resultList.Add(item.Value);
                            }
                        }
                    }
                }
            }
            return resultList;
}

識別的圖片如下：

識別之后的文字如下：

識別效果不怎么好
二、使用百度API
要使用百度API,首先要有百度賬號，然后登陸百度雲，在這里登陸：https://login.bce.baidu.com/
登陸進去后，選擇產品服務-》人工智能-》文字識別：

然后開通通用文字識別功能：

開通功能后，需要創建一個應用：文字識別包選擇不需要

然后點確定，在應用列表中，可以看到你的應用：里面有API KEY/Secret Key

在VS中新建一個窗體應用程序，然后在Nuget中搜索Baidu:

點擊安裝，然后開始寫代碼了：
api_key, secret_key為上面網頁中的API KEY/Secret Key字符串
初始化client:

var client = new Baidu.Aip.Ocr.Ocr(api_key, secret_key);
 client.Timeout = 60000;

識別圖片中的文字：

var image = File.ReadAllBytes(imagePath);
var result = client.GeneralBasic(image).ToString();

同樣識別上面的圖片，結果如下：

識別率高了很多，更多百度API使用，請參考百度官方文檔：
https://cloud.baidu.com/doc/OCR/OCR-Csharp-SDK.html#.E9.80.9A.E7.94.A8.E6.96.87.E5.AD.97.E8.AF.86.E5.88.AB

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 c#圖片識別之Asprise-OCR C# 使用OCR識別中文 Tesseract-ocr c#文字識別簡單入門 C#調用OCR組件識別圖片文字 C#調用OCR組件識別圖片文字 C#使用OneNote的圖片文字識別功能（OCR） C#用Tesseract進行OCR識別，可識別中英日韓所有語言 C# OCR AspriseOcr測試使用圖像文字中英文識別零OCR基礎6行代碼實現C#驗證碼識別 C# 使用Microsoft Office Document Imaging(MODI) 識別圖片中的文字(OCR)