其實在ABBYY的OCR編輯器中,通過調整表格區域的識別,表格的識別度可以達到100%。我通過壹個實際案例來說明壹下如何調整壹個無法識別的表格。
首先用ABBYY FineReader PDF 15軟件打開壹個紙質表格掃描生成的PDF文件。由於紙質表格清晰度不高,掃描的PDF文件效果不是很好,會讓ABBYY的OCR編輯器識別錯誤,這是實際使用中的通病。
單擊“識別”按鈕並選擇“在OCR編輯器中識別和驗證”。
識別完成後,在OCR編輯器界面,查看右邊的副本文件,發現表格沒有完全識別。比如,註冊號左側少了壹條豎線;“非註冊學生……”缺少左右豎線,下面“簽名”部分的表格無法識別。此時請註意,必須選擇“精確到復制”作為“保存格式”。
在左側源文件上,刪除表格中的文本框,點擊工具欄上的“制作表格區域”,通過調整添加表格區域,為表格設置新的繪圖表格區域。在設置的過程中,要註意垂直線對齊和水平線重疊,避免出現被識別的表格邊框錯位和粗細不壹致的問題。
在源文件上重繪表格區域後,點擊“識別頁面”重新識別源文件。鑒定結束後,再次核對表格,發現復件與原件壹致。
然後單擊“驗證”按鈕修改發現錯誤的內容。糾錯後,源文件識別的整個過程就完成了。
最後將識別的文件保存為Word文檔,將掃描的表格轉換為Word格式的電子文件。
摘要
由於紙質文件原件的清晰度和掃描精度,PDF文件中的內容會模糊,以至於ABBYY FineReader PDF 15軟件的OCR文本識別軟件無法完全識別表格的線條,導致表格被刪除。但是,在重新繪制表格區域後,通過再次識別基礎,可以獲得完整的表格。