使用PDFminer3k解析pdf為文字遇到:WARING:root:GBK-EUC-H


最近需要把PDF解析為文字,查了查python的模塊,發現PDFminer3k能滿足需求。我使用的是 windows平台下的python3.6,python2的則下載pdfminer。

首先下載:直接 pip install pdfminer3k。

在網上找了教程代碼跑了下自己用word轉的pdf測試文件,可以解析成文字。

教程網址:http://blog.csdn.net/PianoOrRock/article/details/70666286?reload

然后運行自己真正需要的PDF時,報錯:

剛開始我天真的以為是pdf加密了,后來查了下發現pdfminer3k自帶能解密一些簡單的加密方法,且遇到加密報錯不是這樣的。

然后重新仔細研究報錯,覺得應該是pdf的字體的問題,pdfminer3k不能解析特殊字體,需要下載相應的字體包來解決。

字體包下載網站:https://github.com/euske/pdfminer/pull/71/commits/2103e5875ef04cfaf424b25d2fd0dc9535a90714#diff-11a7e5c9b1cb16f0ae7d0276f643956d

下載好了GBK-EUC-H和UniGB-UCS2-H不要解壓直接放在 pdfminer/cmap文件夾下。

運行后繼續報錯:

PDFMiner里並沒有GBK-EUC-H和UniGB-UCS2這兩個編碼的解碼文件,所以輸出了一堆cid,繼續去上面的網站找到這種編碼解碼包,下載后不要解壓直接放到上面的文件夾里:

 

運行,解析成功!

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM