pdfplumber解析票據PDF文檔,部分中文字體返回CID,無法解析


問題:部分漢字字體無法解析,出現CID代號

環境:Ubuntu18.04,PDF文件內容必須為文字,圖片不支持文字解析(Linux可以打開PDF文件右鍵,如果有復制圖像選項,則該PDF文件內容為圖像)

解決:pdfminer需要重新重新編譯一下,官方文檔首頁有提示,針對CJK字體的支持

python tools \ conv_cmap.py pdfminer \ cmap Adobe-CNS1 cmaprsrc \ cid2code_Adobe_CNS1.txt cp950 big5
python tools \ conv_cmap.py pdfminer \ cmap Adobe-GB1 cmaprsrc \ cid2code_Adobe_GB1.txt cp936 gb2312
python tools \ conv_cmap.py pdfminer \ cmap Adobe-Japan1 cmaprsrc \ cid2code_Adobe_Japan1.txt cp932 euc-jp
python tools \ conv_cmap.py pdfminer \ cmap Adobe-Korea1 cmaprsrc \ cid2code_Adobe_Korea1.txt cp949 euc-kr
python setup.py install

參考:https://zhuanlan.zhihu.com/p/29410051 https://blog.csdn.net/qq_26984605/article/details/80859278


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM