PDF文件復制文本為亂碼 - longzhinuhou的博客 - CSDN博客 https://blog.csdn.net/longzhinuhou/article/details/83758966
復制pdf文字出來是亂碼的一種可能的解決方案 - ijustwanttorun - 博客園 https://www.cnblogs.com/followyourheart/p/5668857.html
本地字體缺失
最近在處理一個pdf文件,是一個地圖文件,上面帶各種文字的標注,地圖比較大,而且文字信息比較多而且分散。因為字體的問題,在我的windows電腦上雖然可以正常顯示,但是復制出來的文字都是方塊,而且對應的文字也不能搜索。
如果不能搜索,也不能復制文字,那么后續的處理會非常棘手。通過不懈的google和嘗試,發現了用Adobe Pdf虛擬打印機(別的虛擬打印機應該也可以,未嘗試)打印成pdf可以解決這個問題,記錄下來,以備有同樣問題的朋友參考。
可能原因是原來的某些字體不能正確識別和嵌入,雖然可以用近似字體替代顯示,但是pdf文字識別始終有問題。在用虛擬打印機處理后,系統帶有的字體被嵌入到新的pdf中,原有的文字變得可識別,因此可以復制和搜索了。
-----------
最近又碰到另外一個pdf文件(200多頁的博士論文),用LaTeX生成的,論文沒法拷貝粘貼,也沒法復制,搜索效果也很糟糕,上面的方法也無效。可能是因為作者是荷蘭人,系統字體不同導致的吧。
請問PDF文件里的字體與用戶電腦里存在的字體有關系嗎?_百度知道 https://zhidao.baidu.com/question/232924314.html
1。由圖片或掃描件制作成的pdf中的字體與電腦字體無關,此時文字只是位圖的組成部分,是源文件的“照片”。
2.如果pdf里的對象是可以復制編輯的文字。那么,PDF文件里的字體與用戶電腦里存在的字體有關系。1)制作pdf時,可以把字體嵌入,即文字代碼文件置入pdf文檔,這時打開pdf,無論電腦系統有無這種字體,都以該字體正常顯示。2)如果制作pdf不嵌入字體,打開pdf時會調用系統最接近字體顯示,系統沒有合適字體時,或者非標准編碼字體文件無法編譯時,pdf顯示會亂碼、圓點、方框等等。
字體安裝
C:\Windows\Fonts
下載
ArialMT-站長字體 http://font.chinaz.com/120216192521.htm#down