Python - PDF 識別文字 (pdfplumber)

本文轉載自查看原文 2021-02-04 16:08 481 Python其它

引言
pdfplumber 簡介
安裝准備
簡單示例

引言

本文基於 pdfplumber 實現 PDF 識別；
PDF 識別其他庫：PyPDF2、；

參考：https://zhuanlan.zhihu.com/p/336643249

pdfplumber 簡介

開源地址：https://github.com/jsvine/pdfplumber

安裝准備

(base) $ sudo pip install pdfplumber

(base) $ sudo pip install pyttsx3

簡單示例

import pdfplumber

# 讀取 PDF 文檔
pdf = pdfplumber.open("設計模式.pdf")

# 獲取頁數
print("總頁數：",len(pdf.pages))
print("-----------------------------------------")

# 讀取第 4 頁；索引從 1 開始
page = pdf.pages[4] 
print("本頁：",page.page_number + 1)
print("-----------------------------------------")

# 導出第 4 頁文本
text = page.extract_text()
print(text)

結果：

總頁數： 261
-----------------------------------------
本頁： 5
-----------------------------------------
xxxxx
xxxxx

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python庫PyPDF2和pdfplumber操作PDF 【轉】python之pdfplumber讀取拆分pdf內容和表格 Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及對比 Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及對比【python】操作PDF全總結|pdfplumber&PyPDF2 python中pdf文件解析包pdfplumber的簡單使用使用pdfplumber讀取PDF python編程：tabula、pdfplumber、camelot進行表格數據識別 pdfplumber解析票據PDF文檔，部分中文字體返回CID，無法解析 pdfplumber庫解析pdf格式