原創|其它|編輯:郝浩|2011-07-21 11:05:21.000|閱讀 4580 次
概述:從PDF文件中提取文字是開發人員對PDF文件最常見、最普通的需求。Aspose.Pdf for .NET雖然允許你從.net程序的PDF文件中提取文字,但是它也有不完善之處。唯一的限制就是,不能從PDF文件中的圖像提取文字。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
從PDF文件中提取文字是開發人員對PDF文件最常見、最普通的需求。Aspose.Pdf for .NET雖然允許你從.net程序的PDF文件中提取文字,但是它也有不完善之處。唯一的限制就是,不能從PDF文件中的圖像提取文字。
然而,Aspose.OCR for .NET的出現消除了該限制。在這篇文章中,通過分享一些細節來闡述如何一起使用Aspose.OCR for .NET和Aspose.Pdf for .NET這兩款組件,以提取PDF文件中的所有文字。
目前, Aspose.OCR for .NET允許你提取TIFF和BMP圖像中的文字。它支持Arial和Times New Roman字體,以及16pt/32pt號字體。在Aspose.OCR for .NET以后的版本中,會不斷添加新字體和其他屬性的支持。
為了從PDF文件和圖像中完整地提取文字,你必須要經過以下三個步驟:
* Extract Text from the PDF File
* Extract Images from the PDF File
* Extract Text from the Images
使用Facades中的PdfExtractor或者DOM API,可將文字從PDF文件中提取出來。請參閱以下題目中的代碼示例,以便了解從PDF文件中提取文字的相關操作:
*
*
提取圖像也有兩種方法: Facades or DOM API. 查看下列題目中的內容可進一步了解詳情
:
*
*
一旦使用上述兩種方法之一成功提取圖像,接下來就應該從這些圖像中提取文字。下面的代碼片斷可以幫助您從圖像中提取文字:
//initialize OcrEngine
OcrEngine ocrEngine = new OcrEngine();
//set the image
ocrEngine.Image = ImageStream.FromFile(“image.bmp”);
//add language and other attributes
ocrEngine.Languages.AddLanguage(Language.Load(“english”));
ocrEngine.Config.NeedRotationCorrection = false;
ocrEngine.Config.UseDefaultDictionaries = true;
//load the resource file
ocrEngine.Resource = new FileStream(“2011.07.02 v1.0 Aspose.OCR.Resouces.zip”, FileMode.Open);
//process the whole image
if (ocrEngine.Process())
{
Console.WriteLine(“Text :{0}”,ocrEngine.Text);
}
有關從圖像中提取文字和以上示例所涉及的源文件的更多詳情,請參考:
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:慧都控件網