翻譯|使用教程|編輯:鮑佳佳|2021-06-07 11:51:40.970|閱讀 210 次
概述:一個非常普遍的要求是能夠解析PDF中的文本。幸運的是, LEADTOOLS OCR Engine使得從PDF文件中提取可搜索文本變得輕而易舉。LEAD的AI增強引擎可以接受任何PDF(無論是否可搜索),并在必要時使用OCR從中提取文本。提取后,LEADTOOLS可以將該信息保存到文本文件,可搜索的PDF文件或 其他150多種受支持的文檔格式中。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
LEADTOOLS OCR Module - LEAD Engine(原Advantage Engine )增加了將光學字符識別(OCR)和智能字符識別(ICR)技術合并到應用程序中的一些方法,并且包含用于開發穩健的,高性能的和可擴展的圖像識別方案所需要的一切技術。LEADTOOLS OCR Module - LEAD Engine可與LEADTOOLS SDKs在文檔和醫療產品方面集成在一起使用。
一個非常普遍的要求是能夠解析PDF中的文本。幸運的是, LEADTOOLS OCR Engine使得從PDF文件中提取可搜索文本變得輕而易舉。LEAD的AI增強引擎可以接受任何PDF(無論是否可搜索),并在必要時使用OCR從中提取文本。提取后,LEADTOOLS可以將該信息保存到文本文件,可搜索的PDF文件或 其他150多種受支持的文檔格式中。
下面概述了有關如何開始使用C#,VB和Java從PDF閱讀文本的一些概述。
C#–從PDF獲取文本
以下是C#控制臺應用程序的概述,該應用程序將對輸入文件進行OCR并將文本打印到控制臺。
public void DocumentPageGetTextExample() { var options = new LoadDocumentOptions(); using (var document = DocumentFactory.LoadFromFile(Path.Combine(LEAD_VARS.ImagesDir, "input.pdf"), options)) { var ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD); var rasterCodecs = new RasterCodecs(); var documentWriter = new DocumentWriter(); ocrEngine.Startup(rasterCodecs, documentWriter, null, LEAD_VARS.OcrLEADRuntimeDir); document.Text.OcrEngine = ocrEngine; // get text var page = document.Pages[0]; var pageText = page.GetText(); if (pageText != null) { pageText.BuildText(); var text = pageText.Text; Console.WriteLine(text); } else { Console.WriteLine("Failed!"); } } } static class LEAD_VARS { public const string ImagesDir = @"C:\Input_File_Path\"; public const string OcrLEADRuntimeDir = @"C:\LEADTOOLS21\Bin\Common\OcrLEADRuntime"; }Visual Basic –從PDF獲取文本
以下VB代碼將對輸入文件進行OCR并將文本打印到控制臺。
Public Shared Sub DocumentPageGetTextExample() Dim options As New LoadDocumentOptions() Using document As Leadtools.Document.LEADDocument = DocumentFactory.LoadFromFile(Path.Combine(DocumentPath.Path, "input.pdf"), options) Dim ocrEngine As IOcrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD) Dim rasterCodecs As New RasterCodecs() Dim documentWriter As New DocumentWriter() ocrEngine.Startup(rasterCodecs, documentWriter, Nothing, LEAD_VARS.OcrLEADRuntimeDir) document.Text.OcrEngine = ocrEngine ' get text Dim page As Leadtools.Document.DocumentPage = document.Pages(0) Dim pageText As DocumentPageText = page.GetText() If Not pageText Is Nothing Then pageText.BuildText() Dim text As String = pageText.Text Console.WriteLine(text) Else Console.WriteLine("Failed!") End If End Using End Sub Public NotInheritable Class LEAD_VARS Public Const OcrLEADRuntimeDir As String = "C:\LEADTOOLS21\Bin\Common\OcrLEADRuntime" End ClassJava –從PDF獲取文本
LEADTOOLS引擎能夠將提取的文本存儲為 150種支持的文件格式中的一種。這是Java實現的示例。
static void ConvertToDocument(String inputFile, DocumentConverter docConverter, OcrEngine ocrEngine) { DocumentWriter docWriter = new DocumentWriter(); ocrEngine.startup(new RasterCodecs(), docWriter, null, null); String outputFile = "C:\\OutputFilePath\\searchablePDF.pdf"; docConverter.setDocumentWriterInstance(docWriter); docConverter.setOcrEngineInstance(ocrEngine, true); DocumentConverterJobData jobData = DocumentConverterJobs.createJobData(inputFile, outputFile, DocumentFormat.PDF); jobData.setJobName("DocumentConversion"); DocumentConverterJob job = docConverter.getJobs().createJob(jobData); docConverter.getJobs().runJob(job); if (job.getErrors().size() > 0) for (DocumentConverterJobError error : job.getErrors()) System.out.println("\nError during conversion: " + error.getError().getMessage()); else System.out.println("Successfully converted file to " + outputFile); }您是否看到我們之前的文章“ 如何將PDF轉換為DOC / DOCX”?請繼續關注更多轉換示例,以了解LEADTOOLS文檔轉換器如何輕松地將其轉換為將PDF文件轉換為其他文檔文件或圖像并再次返回的任何工作流程。在此期間需要幫助嗎? 請聯系我們的支持團隊以獲取免費的技術支持!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自: