復制pdf文字出來是亂碼的一種可能的解決方案


最近在處理一個pdf文件,是一個地圖文件,上面帶各種文字的標注,地圖比較大,而且文字信息比較多而且分散。因為字體的問題,在我的windows電腦上雖然可以正常顯示,但是復制出來的文字都是方塊,而且對應的文字也不能搜索。

如果不能搜索,也不能復制文字,那么后續的處理會非常棘手。通過不懈的google和嘗試,發現了用Adobe Pdf虛擬打印機(別的虛擬打印機應該也可以,未嘗試)打印成pdf可以解決這個問題,記錄下來,以備有同樣問題的朋友參考。

可能原因是原來的某些字體不能正確識別和嵌入,雖然可以用近似字體替代顯示,但是pdf文字識別始終有問題。在用虛擬打印機處理后,系統帶有的字體被嵌入到新的pdf中,原有的文字變得可識別,因此可以復制和搜索了。

 

-----------

最近又碰到另外一個pdf文件(200多頁的博士論文),用LaTeX生成的,論文沒法拷貝粘貼,也沒法復制,搜索效果也很糟糕,上面的方法也無效。可能是因為作者是荷蘭人,系統字體不同導致的吧。

后來用SumatraPDF打開勉強可以搜索,基本滿足閱讀的要求。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM