python從圖片中提取文字

本文轉載自查看原文 2020-03-12 21:47 4804 Python

筆者環境:Arch Linux

1. 系統安裝`teseract`和英文中文語言包

arch下安裝十分簡單，pacman會自動幫我們解決所有依賴

sudo pacman -S tesseract tesseract-data-eng tesseract-data-chi_sim

2. python安裝必要的第三方庫

sudo pip install pillow
sudo pip install pytesseract

2. 代碼展示

分別識別中文，英文，數字

我測試時識別的圖片在代碼同一目錄下的img目錄下

import os
import pytesseract
from PIL import Image

BASE_DIR = os.path.dirname(__file__)

zh_img = os.path.join(BASE_DIR, "img/zh_demo.png")
en_img = os.path.join(BASE_DIR, "img/en_demo.png")
num_img = os.path.join(BASE_DIR, "img/num_demo.png")

zh = pytesseract.image_to_string(Image.open(zh_img), lang="chi_sim").replace(" ","")    # 中文識別有時不是特別准確，識別結果中間有空格
en = pytesseract.image_to_string(Image.open(en_img))    # 也只有識別規矩的英文和數字了，可以用來破解低級驗證碼
num = pytesseract.image_to_string(Image.open(num_img))

print(zh)	# 山重水覆疑無路,柳暗花明又一村
print(en)	# kainhuck
print(num)	# 0771-5785703

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 小知識：如何從圖片中提取文字 python如何提取pdf文件圖片中的文字？ [python]提取PPT中的文字（包括圖片中的文字）從圖片中提取文本 pytesseract提取識別圖片中的文字 Python識別圖片中的文字提取PPT中的文字（包括圖片中的文字）防止識別圖片中文字；防止圖片文字提取；反抗圖片文字提取 Python 提取圖片中的GPS信息 Python從圖片提取文字

python從圖片中提取文字

1. 系統安裝teseract和英文中文語言包

2. python安裝必要的第三方庫

2. 代碼展示

免責聲明！

1. 系統安裝`teseract`和英文中文語言包