原創|使用教程|編輯:龔雪|2015-07-24 09:26:32.000|閱讀 501 次
概述:LEADTOOLS是世界一流的圖像開發工具包,以“程序員友好”的方式為您提供高質量、高性能、高穩定性的圖像組件。開發者可以明顯減少應用程序的開發時間,從而最大化生產率,保證了最大可能的投資回報。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
LEADTOOLS在不犧牲控件的基礎上進行了全新設計,極大地簡化了開發。一個非常重要的改進是一組用于掃描圖像光學文字識別(OCR)的高水準.NET類。新框架非常直觀、靈活和易于理解。程序員僅用三行代碼就能使用OCR功能,同時還能保證控件達到特定應用程序或工作流要求的必須水平。
在本文中,我們將為您介紹全新.NET OCR類的主要功能,為您提供創建一個OCR應用程序的步驟和示例代碼。點擊文章底部鏈接,下載功能齊全的全功能試用版SDK體驗吧!
LEADTOOLS提供了以下方法:
· 識別和導出文本,你可以從多種文本Txt、Word、數據庫或Excel文件格式中選擇。
· 在單線程或多線程環境中執行OCR操作,且優化了客戶端操作。
· 支持多個OCR引擎,使用常見的.NET類庫從用戶層次抽象出它們。不需要改變應用程序的代碼,就能在多個引擎間轉換。
· 選擇識別文本的語種。包括英語、簡體中文、繁體中文、日語、韓語、法語、德語、意大利語、挪威語、葡萄牙語、俄語、西班牙語或瑞典語等等超過104種。
· 手動或自動將復雜的頁面分為文本區域、圖像區域、表格區域、框線、標題和頁腳。
· 在識別前設置精度閾值,控制識別的準確性。
· 學習、保存和加載相同文檔的識別數據。SDK可以學習識別的結果,并使用OCR文本驗證系統提高后續識別率。
· 可以識別幾乎任何字體的文本。
· 使用內置的用戶字典提高識別的準確率。
· 自動檢測傳真、點陣式打印機和其他模糊文檔,然后做出相應的補償。
· 處理文本和圖形。識別軟件可以區分半色調圖形和文本,為復合文檔處理系統提供了基礎。以40多種格式保存文檔,包括 Adobe PDF和PDF/A、MS Word、MS Excel和各種ASCII 和UNICODE文本。
LEADTOOLS OCR .NET類庫有Win32和x64版本,支持以下環境的軟件開發:
· Windows 8 (32 和64-bit 版本)
· Windows 7 (32 和64-bit 版本)
· Windows 2008 (32 和64-bit 版本)
· Windows Vista (32 和64-bit 版本)
· Windows XP (32 和64-bit 版本)
· Windows 2000
提供的示例可以在Visual Studio 2005、2008、2012、2013上運行。
LEADTOOLS使用自主研發的OCR引擎,使用這個類來和頁面文檔交互。LEADTOOLS OCR和安裝在系統上的OCR引擎間可以使用這個類來進行調用。這個OCR類是一個內部結構,包括了識別、獲取并設置信息以及文本驗證時的所有必要信息。
下面是識別一個或多個頁面的一般步驟。若想了解更多詳細信息,你可以下載LEADTOOLS全功能試用版,查看.NET幫助里的“使用LEADTOOLS .NET OCR”主題:
1. 選擇你想使用的引擎類型,創建一個IOcrEngine接口的實例。
2. 使用 IOcrEngine.Startup 方法啟動OCR引擎。
3. 創建一個單頁或多頁的OCR文檔。
4. 手動或自動在頁面上建立識別區域。(可選。有無區域均可識別頁面。)
5. 可選。設置OCR引擎要使用的語言。(默認為英語)
6. 可選。設置拼寫檢查語言。(默認為英文)
7. 可選。設置任何特殊的識別模塊選項。當頁面包含手動或自動創建的區域時才需要。
8. 識別。
9. 若需要,保存識別結果。結果可以保存到一個文件或內存中。
10. 結束時關閉OCR引擎。
4、5、6、7步以任意順序執行都可以,只要在啟動OCR引擎之后識別頁面之前執行就可以。
在你的.NET應用程序中添加theLeadtools.Forms.Ocr.dll 組件的引用,就可以使用LEADTOOLS for .NET OCR。這個組件包括了使用LEADTOOLS OCR編程時使用的各種接口、類、結構和委托。
由于工具包支持多個引擎,因此與引擎連接的真正代碼存儲在一個單獨的組件中,一旦IOcrEngine 接口的實例被創建,就動態加載這個組件。因此,你必須保證你計劃使用的引擎組件就在 Leadtools.Forms.Ocr.dll的旁邊。你可以在項目中添加引擎組件,自動檢測依賴,盡管這不是LEADTOOLS要求的。
以下代碼展示了如何使用代碼執行上述操作:
// *** 第一步:選擇引擎類型,創建接口的實例。 // 我們將使用LEADTOOLS OCR Plus 引擎,并在同一進程中使用它。 IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Plus, false); // ***第二步:啟動引擎。 // 使用默認的參數。 ocrEngine.Startup(null, null, null); // ***第三步:創建一個單頁或多頁的OCR文檔 IOcrDocument ocrDocument = ocrEngine.DocumentManager.CreateDocument(); // 將一個多頁TIF圖像的所有頁面添加到文檔中 ocrDocument.Pages.AddPages(@"C:\Images\Ocr.tif", 1, -1, null); // *** 第四步:手動或自動在頁面上創建區域 // 自動創建區域 ocrDocument.Pages.AutoZone(null); // *** 第五步:(可選)設置OCR引擎要使用的語言 // 使用英語和德語 ocrEngine.LanguageManager.EnableLanguages(new string[] { "en", "zh-Hans"}); // *** 第六步:(可選)設置拼寫檢查語言 // 啟動拼寫檢查系統,將英語設為拼寫語言 ocrEngine.SpellCheckManager.Enabled = true; ocrEngine.SpellCheckManager.SpellLanguage = "en"; // *** 第七步:(可選)設置任何特殊的識別模塊選項 //將第一頁中第一個區域的fill方法設置為默認的 OcrZone ocrZone = ocrDocument.Pages[0].Zones[0]; ocrZone.FillMethod = OcrZoneFillMethod.Default; ocrDocument.Pages[0].Zones[0] = ocrZone; // ***第八步:識別 ocrDocument.Pages.Recognize(null); // *** 第九步:保存識別結果 // 將結果保存為一個PDF文件 ocrDocument.Save(@"C:\Images\Document.pdf", OcrDocumentFormat.PdfA, null); ocrDocument.Dispose(); // *** 第十步:當結束時關閉OCR引擎 ocrEngine.Shutdown(); ocrEngine.Dispose();
最后,下面的示例使用一勞永逸的IOcrAutoRecognizeManager接口執行了相同的操作:
// 創建引擎實例 using (IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Plus, false)) { // 啟動引擎 ocrEngine.Startup(null, null, null); // 將多頁TIF圖像轉化為一個PDF文檔 ocrEngine.AutoRecognizeManager.Run( @"C:\Images\Ocr.tif", @"C:\Images\Document.pdf", null, OcrDocumentFormat.PdfA, null); }
LEADTOOLS為開發者提供了世界一流的穩定圖像庫。易用的高級編程接口使業務關鍵型應用程序的快速開發變為可能,新設計簡化了開發。
從以上示例我們可以看出,LEAD科技全新的高級OCR接口和設計提供了一個高效的、靈活的解決方案,可以將掃描圖像轉化為可編輯的、可搜索的文檔。提供的類允許你控制整個過程,使用一個方法調用,你就可以啟動引擎,將150多種支持的圖像格式轉化為常見的文檔格式。
OCR是LEADTOOOLS提供的諸多功能中的一個。有關更多信息,請訪問我們的網站或下載免費的功能齊全的評估版SDK。
LEADTOOLS提供了若干工具包、插件和節省費用的產品包,它們都能提供OCR技術。我們為您推薦Recognition Imaging 或Document Imaging Suite,包含了Document Imaging SDK以及OCR、輸出可搜索PDF所需的一切插件。關于產品的更多選擇,請聯系我們的銷售部門。
如果您在決定購買前需要試用,歡迎下載LEADTOOLS全功能評估版,可以免費試用60天哦。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn