問題描述
PDF格式文件一般分為文字版和圖片版:文字版文件較小,方便搜索,可以方便地轉換成其他格式;而圖片版文件較大,可防止他們直接復制。而今天要說的文字版本卻無法搜索,這給文件使用帶來了極大的不便。主要表現為:
(1)文件較小,文字可選擇;
(2)文字可復制,復制的結果為亂碼,如下圖的"基礎"二字,粘貼的結果是"!"";
(3)無法復制,很急人;
(4)編輯時,格式中的字體是顯示"亂碼";
在菜單欄[文檔]-[屬性]-[字體]中,可以看到有較多已嵌入了自定義編碼字體,這是發布者處理的,以防止復制和搜索,一般是一種不可逆的操作。
解決方案
網絡上大多的解決方案是使用ABBYY OCR來識別,重新編排一份文檔,但這樣的效率還是很慢,特別是當文件分辨率並不高的情況下。通過測試發了一種方案。具體操作如下:
先用Adobe Acrobat打開文件,使用印刷制作工具
打開印前檢查進行PDF修正,通過分析和處理,將字體轉為空心。
修正后,使用掃描和OCR工具"增強",進行識別處理后,保存即可。這樣的操作方法簡單,速度較快,結果正確,無需進行核查。