您好,登錄后才能下訂單哦!
這篇文章主要介紹了如何使用C#版的Tesseract,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
C#版本源碼下載地址:https://github.com/charlesw/tesseract
其實在vs中可以直接用NuGet工具進行下載:
打開nuget,搜索tesseract,點安裝即可。
源碼是vs2015編譯的,需要安裝vs2015以上版本。
打開項目后如:
我們再添加一個winform項目,畫界面如:
實現點擊“選擇需要識別的圖片”,打開一張圖片,調用算法并顯示結果。比較簡單。源碼如下:
using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms; using Tesseract; namespace TesseractDemo { public partial class Form1 : Form { public Form1() { InitializeComponent(); } //選圖片并調用ocr識別方法 private void btnRec_Click(object sender, EventArgs e) { //openFileDialog1.Filter = ""; if (openFileDialog1.ShowDialog() == DialogResult.OK) { var imgPath = openFileDialog1.FileName; pictureBox1.Image=Image.FromFile(imgPath); string strResult = ImageToText(imgPath); if (string.IsNullOrEmpty(strResult)) { txtResult.Text = "無法識別"; } else { txtResult.Text = strResult; } } } //調用tesseract實現OCR識別 public string ImageToText(string imgPath) { using (var engine = new TesseractEngine("tessdata", "eng", EngineMode.Default)) { using (var img = Pix.LoadFromFile(imgPath)) { using (var page = engine.Process(img)) { return page.GetText(); } } } } } }
有一點要注意的是,tesseract的識別語言包要自己下載后包含到項目里面,并設置為始終復制,或者直接把這個文件包放到運行程序目錄(bin\debug)下:
eng是英文字符的意思,要識別其他語言字符,需要自己下載:
Tesseract hasunicode (UTF-8) support, and canrecognize more than 100 languages"out of the box".
這個庫支持100種語言的識別
字庫下載地址為:https://github.com/tesseract-ocr/tessdata
用OpencvSharp先降噪再調OCR識別:
//用opencv進行降噪處理再ocr識別 private void button3_Click(object sender, EventArgs e) { //從網上讀取一張圖片 string imgUrl = "https://service.cheshi.com/user/validate/validatev3.php"; MemoryStream ms = ReadImgFromWeb(imgUrl); Image img = Image.FromStream(ms); pictureBox1.Image = img; //降噪 Mat simg = Mat.FromStream(ms, ImreadModes.Grayscale); Cv2.ImShow("Input Image", simg); //閾值操作 閾值參數可以用一些可視化工具來調試得到 Mat ThresholdImg = simg.Threshold(29, 255, ThresholdTypes.Binary); Cv2.ImShow("Threshold", ThresholdImg); Cv2.ImWrite("d:\\img.png", ThresholdImg); textBox1.Text= ImageToText("d:\\img.png"); } /// <summary> /// 從網上讀取一張圖片 /// </summary> /// <param name="Url"></param> public MemoryStream ReadImgFromWeb(string Url) { HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url); request.Credentials = CredentialCache.DefaultCredentials; // 添加授權證書 request.UserAgent = "Microsoft Internet Explorer"; WebResponse response = request.GetResponse(); Stream s = response.GetResponseStream(); byte[] data = new byte[1024]; int length = 0; MemoryStream ms = new MemoryStream(); while ((length = s.Read(data, 0, data.Length)) > 0) { ms.Write(data, 0, length); } ms.Seek(0, SeekOrigin.Begin); //pictureBox1.Image = Image.FromStream(ms); return ms; }
C#是一個簡單、通用、面向對象的編程語言,它由微軟Microsoft開發,繼承了C和C++強大功能,并且去掉了一些它們的復雜特性,C#綜合了VB簡單的可視化操作和C++的高運行效率,以其強大的操作能力、優雅的語法風格、創新的語言特性和便捷的面向組件編程從而成為.NET開發的首選語言,但它不適用于編寫時間急迫或性能非常高的代碼,因為C#缺乏性能極高的應用程序所需要的關鍵功能。
感謝你能夠認真閱讀完這篇文章,希望小編分享的“如何使用C#版的Tesseract”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關注億速云行業資訊頻道,更多相關知識等著你來學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。