pdfplumber模块初始用


import pdfplumber 
import re
def pdf_read():
    pdf=pdfplumber.open('文件路径'")#文件路径,读取文件
    page0=pdf.pages[11] #指定页数
    tables=page0.extract_tables()#获得该页的表格
    texts=page0.extract_text()#获得text文本值

pdfplumber 缺省通过表格线来区分行和列,所以下列情况是无法提取出表格的:
* 你的表格是图片,通过选择可以确定是否图片
* 你的表格不是用线来分隔,或者分隔不全,例如列用线,行没线
这种情况下,你就需要尝试:
page0.extract_tables(table_settings={})


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM