原創|使用教程|編輯:龔雪|2013-12-31 09:12:00.000|閱讀 647 次
概述:本文主要介紹LEADTOOLS表單識別和處理流程。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
ECM(Enterprise Content Management)系統,尤其是文檔圖像應用程序的一個主要特點就是表單識別和處理。ECM系統在采集、管理、儲存和傳遞文件過程中,表單識別和處理是優化整個工作流的一個關鍵因素。
表單識別是一個填寫表單并自動確定表單類型的過程。表單識別也是一個從所填寫的表單中自動提取關鍵信息的過程。
在大多數情況下,一個典型的工作流以創建需要被處理的實際表單為起點,以存儲稍后需要檢索的數據和生成報表為終點。
Form Creation(表單創建): 該步驟創建實際表單,并將所有相關信息和字段添加到窗體。
Distribution(分配):表單被分配給用戶填寫,文檔以電子形式或者紙面形式進行分配。
Input/Capture(輸入和捕獲):文件可以以多種方式進行捕獲。一旦文檔被捕獲,文檔就被發送到內容管理系統中進行處理。源文檔捕獲
Image Cleanup(圖像清理):為了最大限度地提高識別和處理結果,該文件必須盡可能干凈。 LEADTOOLS提供了一套廣泛的方法移除掃描或傳真圖像中的一些常見問題,去除點、線和孔。
Recognition(識別):圖像清理后就可以進行識別。通過識別還可以確定圖像類型。在識別過程中,可以采用多種識別技術,如條形碼、OCR以及LEADTOOLS所提供的其他技術等。可以標注一些無法識別的表單并且以后還可以手動檢查。
Processing(處理):一旦識別出了表單類型,我們就可以知道哪些信息需要被提取以及位于窗體上的位置。所有相關信息如條碼數據、客戶填充數據(姓名,地址,日期,簽名,徽標等)均可被提取。OCR, ICR和 OMR等多種技術均被用戶提取數據。一些無法識別的表單將被標注出來,并且以后還可以手動檢查。
Quality Assurance(質量保證):在某些情況下,表單可能無法被識別或處理。這些情況包括:掃描\傳真質量低、表單沒有添加到master collection、單證不全、文件沒有被填寫好等等。質量保證機構將手工檢查這些文件,并決定穩健是否應該識別和處理,或者需要重新創建。
Output(輸出):此時,表單已經就緒,準備輸出。輸出階段通常需要用到所提取的數據。可以對輸出文檔進行存儲、歸檔、以電子郵件發送結果、生成報表和啟動其他過程等。原始文件可以以最為有效的格式進行存儲,如LEADTOOLS ABC,還可以一些TIFF、PDF和JPEG等標準格式存儲。 LEADTOOLS目前支持140種不同格式。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:慧都控件網