最近在處理一個pdf文件,是一個地圖文件,上面帶各種文字的標注,地圖比較大,而且文字信息比較多而且分散。因為字體的問題,在我的windows電腦上雖然可以正常顯示,但是復制出來的文字都是方塊,而且對應的文字也不能搜索。
如果不能搜索,也不能復制文字,那么后續的處理會非常棘手。通過不懈的google和嘗試,發現了用Adobe Pdf虛擬打印機(別的虛擬打印機應該也可以,未嘗試)打印成pdf可以解決這個問題,記錄下來,以備有同樣問題的朋友參考。
可能原因是原來的某些字體不能正確識別和嵌入,雖然可以用近似字體替代顯示,但是pdf文字識別始終有問題。在用虛擬打印機處理后,系統帶有的字體被嵌入到新的pdf中,原有的文字變得可識別,因此可以復制和搜索了。
-----------
最近又碰到另外一個pdf文件(200多頁的博士論文),用LaTeX生成的,論文沒法拷貝粘貼,也沒法復制,搜索效果也很糟糕,上面的方法也無效。可能是因為作者是荷蘭人,系統字體不同導致的吧。
后來用SumatraPDF打開勉強可以搜索,基本滿足閱讀的要求。