Python實現任意區域文字識別(OCR)


本文的OCR當然不是自己從頭開發的,是基於百度智能雲提供的API(我感覺是百度在中國的人工智能領域值得稱贊的一大貢獻),其提供的API完全可以滿足個人使用,相對來說簡潔准確率高。

安裝OCR Python SDK

OCR Python SDK目錄結構

├── README.md
├── aip                   //SDK目錄
│   ├── __init__.py       //導出類
│   ├── base.py           //aip基類
│   ├── http.py           //http請求
│   └── ocr.py            //OCR
└── setup.py              //setuptools安裝

支持Python版本:2.7.+ ,3.+

安裝使用Python SDK有如下方式:

  • 如果已安裝pip,執行pip install baidu-aip即可。
  • 如果已安裝setuptools,下載后執行python setup.py install即可。

代碼實現

下面讓我們來看一下代碼實現。

主要使用的模塊有

import os # 操作系統相關
import sys # 系統相關
import time # 時間獲取
import signal # 系統信號
import winsound # 提示音
from aip import AipOcr  # 百度OCR API
from PIL import ImageGrab # 捕獲剪切板中的圖片
import win32clipboard as wc # WINDOWS 剪切板操作
import win32con # 這里用於獲取 WINDOWS 剪貼板數據的標准格式

第一步 這里的APP_ID,API_KEY,SECRET_KEY是通過登陸百度智能雲后自己在OCR板塊申請的, 實現基本的OCR程序,可以通過圖片獲取文字。

""" 你的 APPID AK SK """
APP_ID = 'xxx'
API_KEY = 'xxx'
SECRET_KEY = 'xxx'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

""" 讀取圖片 """
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

""" 從API的返回字典中獲取文字 """
def getOcrText(txt_dict):
	txt = ""
	if type(txt_dict) == dict:
		for i in txt_dict['words_result']:
			txt = txt + i["words"]
			if len(i["words"]) < 25: # 這里使用字符串長度決定了文本是否換行,讀者可以根據自己的喜好控制回車符的輸出,實現可控的文本顯示形式
				txt = txt + "\n\n"
	return txt

""" 調用通用/高精度文字識別, 圖片參數為本地圖片 """
def BaiduOcr(imageName,Accurate=True):
	image = get_file_content(imageName)
	if Accurate:
		return getOcrText(client.basicGeneral(image))
	else:
		return getOcrText(client.basicAccurate(image))
	
""" 帶參數調用通用文字識別, 圖片參數為遠程url圖片 """
def BaiduOcrUrl(url): 
	return getOcrText(client.basicGeneralUrl(url))

第二步,實現快捷鍵獲取文字,將識別文字放入剪切板中,提示音提醒以及快捷鍵退出程序

""" 剪切板操作函數 """
def get_clipboard():
    wc.OpenClipboard()
    txt = wc.GetClipboardData(win32con.CF_UNICODETEXT)
    wc.CloseClipboard()
    return txt

def empty_clipboard():
    wc.OpenClipboard()
    wc.EmptyClipboard()
    wc.CloseClipboard()

def set_clipboard(txt):
    wc.OpenClipboard()
    wc.EmptyClipboard()
    wc.SetClipboardData(win32con.CF_UNICODETEXT, txt)
    wc.CloseClipboard()
    
""" 截圖后,調用通用/高精度文字識別"""
def BaiduOcrScreenshots(Accurate=True,path="./",ifauto=False):
	if not os.path.exists(path):
		os.makedirs(path)
	image = ImageGrab.grabclipboard()
	if image != None:
		print("\rThe image has been obtained. Please wait a moment!",end=" ")
		filename = str(time.time_ns())
		image.save(path+filename+".png")
		if Accurate:
			txt = getOcrText(client.basicAccurate(get_file_content(path+filename+".png")))
		else:	
			txt = getOcrText(client.basicGeneral(get_file_content(path+filename+".png")))
		os.remove(path+filename+".png")
		# f = open(os.path.abspath(path)+"\\"+filename+".txt",'w')
		# f.write(txt)
		set_clipboard(txt)
		winsound.PlaySound('SystemAsterisk',winsound.SND_ASYNC)
		# os.startfile(os.path.abspath(path)+"\\"+filename+".txt")
		# empty_clipboard()
		return txt
	else :
		if not ifauto:
			print("Please get the screenshots by Shift+Win+S!     ",end="")
			return ""
		else:
			print("\rPlease get the screenshots by Shift+Win+S !       ",end="")

def sig_handler(signum, frame):
    sys.exit(0)
    
def removeTempFile(file = [".txt",".png"],path="./"):
	if not os.path.exists(path):
		os.makedirs(path)
	pathDir =  os.listdir(path)
	for i in pathDir:
		for j in file:
			if j in i:
				os.remove(path+i)

def AutoOcrFile(path="./",filetype=[".png",".jpg",".bmp"]):
	if not os.path.exists(path):
		os.makedirs(path)
	pathDir =  os.listdir(path)
	for i in pathDir:
		for j in filetype:
			if j in i:
				f = open(os.path.abspath(path)+"\\"+str(time.time_ns())+".txt",'w')
				f.write(BaiduOcr(path+i))
				break

def AutoOcrScreenshots():
	signal.signal(signal.SIGINT, sig_handler)
	signal.signal(signal.SIGTERM, sig_handler)
	print("Waiting For Ctrl+C to exit ater removing all picture files and txt files!")
	print("Please get the screenshots by Shift+Win+S !",end="")
	while(1):
		try:
			BaiduOcrScreenshots(ifauto=True)
			time.sleep(0.1)
		except SystemExit:
			removeTempFile()
			break
		else :
			pass
		finally:
			pass

最終運行函數 AutoOcrScreenshots 函數便可以實現了:

if __name__ == '__main__':
	AutoOcrScreenshots()

使用方法

使用 Windows 10 系統時,將以上代碼放置在一個 .py 文件下,然后運行便可以使用Shift+Win+S快捷鍵實現任意區域截取,截取后圖片將暫時存放在剪切板中,程序自動使用Windows API獲取圖片內容,之后使用百度的OCR API獲取文字,並將文字放置在剪切版內存中后發出提示音。使用者則可以在開啟程序后,使用快捷鍵截圖后靜待提示音后使用Ctrl+V將文字內容放置在自己所需的位置。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM