pdfplumber模塊初始用

本文轉載自查看原文 2019-08-01 15:41 1416

import pdfplumber 
import re
def pdf_read():
    pdf=pdfplumber.open('文件路徑'")#文件路徑,讀取文件
    page0=pdf.pages[11] #指定頁數
    tables=page0.extract_tables()#獲得該頁的表格
    texts=page0.extract_text()#獲得text文本值

pdfplumber 缺省通過表格線來區分行和列，所以下列情況是無法提取出表格的：
* 你的表格是圖片，通過選擇可以確定是否圖片
* 你的表格不是用線來分隔，或者分隔不全，例如列用線，行沒線
這種情況下，你就需要嘗試：
page0.extract_tables(table_settings={})

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用pdfplumber讀取PDF pdfplumber庫的安裝 Nodejs模塊初始化 pdfplumber庫解析pdf格式 Python - PDF 識別文字 (pdfplumber) C#模塊初始化注入 ABP中的模塊初始化過程(一) FreeSwitch 的初始化及其模塊加載過程 Python 模塊初始化的時候，發生了什么？ nginx源碼分析之模塊初始化