問題描述

PDF格式文件一般分為文字版和圖片版：文字版文件較小，方便搜索，可以方便地轉換成其他格式；而圖片版文件較大，可防止他們直接復制。而今天要說的文字版本卻無法搜索，這給文件使用帶來了極大的不便。主要表現為：

(1)文件較小，文字可選擇；

(2)文字可復制，復制的結果為亂碼，如下圖的"基礎"二字，粘貼的結果是"!""；

(3)無法復制，很急人；

(4)編輯時，格式中的字體是顯示"亂碼"；

在菜單欄[文檔]-[屬性]-[字體]中，可以看到有較多已嵌入了自定義編碼字體，這是發布者處理的，以防止復制和搜索，一般是一種不可逆的操作。

解決方案

網絡上大多的解決方案是使用ABBYY OCR來識別，重新編排一份文檔，但這樣的效率還是很慢，特別是當文件分辨率並不高的情況下。通過測試發了一種方案。具體操作如下：

先用Adobe Acrobat打開文件，使用印刷制作工具

打開印前檢查進行PDF修正，通過分析和處理，將字體轉為空心。

修正后，使用掃描和OCR工具"增強"，進行識別處理后，保存即可。這樣的操作方法簡單，速度較快，結果正確，無需進行核查。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 C# Oracle 亂碼問題解決方案 oracle 字符亂碼問題解決方案 Linux亂碼問題解決方案 kettle 顯示中文亂碼問題解決方案 gradle中文亂碼問題解決方案 java 菜單中文亂碼問題解決方案(使用idea/eclipse) swing MenuItem亂碼 Xss問題解決方案 RestTemplate發起http請求中文亂碼問題解決方案 IDEA編譯器亂碼問題解決方案 js 解析url中search時存在中文亂碼問題解決方案