Python - PDF 識別文字 (pdfplumber)



引言

本文基於 pdfplumber 實現 PDF 識別;
PDF 識別其他庫:PyPDF2、;

參考:https://zhuanlan.zhihu.com/p/336643249


pdfplumber 簡介

開源地址:https://github.com/jsvine/pdfplumber


安裝准備

(base) $ sudo pip install pdfplumber

(base) $ sudo pip install pyttsx3


簡單示例

import pdfplumber

# 讀取 PDF 文檔
pdf = pdfplumber.open("設計模式.pdf")

# 獲取頁數
print("總頁數:",len(pdf.pages))
print("-----------------------------------------")

# 讀取第 4 頁;索引從 1 開始
page = pdf.pages[4] 
print("本頁:",page.page_number + 1)
print("-----------------------------------------")

# 導出第 4 頁文本
text = page.extract_text()
print(text)

結果:

總頁數: 261
-----------------------------------------
本頁: 5
-----------------------------------------
xxxxx
xxxxx


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM