目錄
引言
本文基於 pdfplumber 實現 PDF 識別;
PDF 識別其他庫:PyPDF2、;
參考:https://zhuanlan.zhihu.com/p/336643249
pdfplumber 簡介
開源地址:https://github.com/jsvine/pdfplumber
安裝准備
(base) $ sudo pip install pdfplumber
(base) $ sudo pip install pyttsx3
簡單示例
import pdfplumber
# 讀取 PDF 文檔
pdf = pdfplumber.open("設計模式.pdf")
# 獲取頁數
print("總頁數:",len(pdf.pages))
print("-----------------------------------------")
# 讀取第 4 頁;索引從 1 開始
page = pdf.pages[4]
print("本頁:",page.page_number + 1)
print("-----------------------------------------")
# 導出第 4 頁文本
text = page.extract_text()
print(text)
結果:
總頁數: 261
-----------------------------------------
本頁: 5
-----------------------------------------
xxxxx
xxxxx