pdfplumber解析票据PDF文档,部分中文字体返回CID,无法解析


问题:部分汉字字体无法解析,出现CID代号

环境:Ubuntu18.04,PDF文件内容必须为文字,图片不支持文字解析(Linux可以打开PDF文件右键,如果有复制图像选项,则该PDF文件内容为图像)

解决:pdfminer需要重新重新编译一下,官方文档首页有提示,针对CJK字体的支持

python tools \ conv_cmap.py pdfminer \ cmap Adobe-CNS1 cmaprsrc \ cid2code_Adobe_CNS1.txt cp950 big5
python tools \ conv_cmap.py pdfminer \ cmap Adobe-GB1 cmaprsrc \ cid2code_Adobe_GB1.txt cp936 gb2312
python tools \ conv_cmap.py pdfminer \ cmap Adobe-Japan1 cmaprsrc \ cid2code_Adobe_Japan1.txt cp932 euc-jp
python tools \ conv_cmap.py pdfminer \ cmap Adobe-Korea1 cmaprsrc \ cid2code_Adobe_Korea1.txt cp949 euc-kr
python setup.py install

参考:https://zhuanlan.zhihu.com/p/29410051 https://blog.csdn.net/qq_26984605/article/details/80859278


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM