一次完整的OCR實踐記錄

本文轉載自查看原文 2020-02-03 20:53 1279 【5】TensorFlow

一、任務介紹

　　這次的任務是對兩百余張圖片里面特定的編號進行識別，涉及保密的原因，這里就不能粘貼出具體的圖片了，下面粘貼出一張類似需要識別的圖片。

　　假如說我的數據源如上圖所示，那么我需要做的工作就是將上面圖片里面標紅的數字給識別出來。

　　我采用的算法是https://github.com/YCG09/chinese_ocr，這是基於Tensorflow和keras框架采用ctpn+densenet+CTC算法來完成對圖片指定內容的字符識別。

二、圖像標注

　　既然要進行OCR識別，那么一定要對已有的數據源進行圖像標注工作，這里采用的工具是labelImg，相信大家如果有搞深度學習這塊的話一定對這個工具不會陌生。

　　對圖像具體的標注流程，我這里就不做說明了，網上有很多資料可以查找。這里需要作特別說明的是，對於ctpn的訓練，label的名字為text，對於densenet的訓練來說的話，就需要把標注框里面的內容當作label。

　　然后就是數據增強這塊，這里需要記錄的有兩點，一就是原始的數據源比較少就必須做數據增強，不然做出來的效果肯定不太行，二就是怎么做數據增強，由於這里的數據比較簡單，需要識別的內容也是有規律可行的，那這里就用不着采用比較復雜的數據增強，所以我做的數據增強就是對圖像隨機進行裁剪和傾斜，當然這里裁剪的尺寸和傾斜的角度一定要控制好，不然就會影響圖片的質量。

import cv2
import numpy as np
import random
import os
from PIL import Image

# 數據增強的代碼

img_path = r"*****************"
save_path = r"****************"

# 隨機傾斜圖片
def rotate_ima(img_path,save_path):
    for file in os.listdir(img_path):
        img = cv2.imread(os.path.join(img_path,file),0)
        rows,cols = img.shape

        # cols-1 and rows-1 are the coordinate limits.
        # 每張圖片傾斜4張
        for i in range(4):
            a = random.randint(2,6)
            print(a)
            # 指定左右傾斜
            for j in range(2):
                a = -a
                M = cv2.getRotationMatrix2D(((cols-1)/2.0,(rows-1)/2.0),a,1)
                dst = cv2.warpAffine(img,M,(cols,rows))

                #cv2.imshow('img',img)
                #cv2.imshow('dst',dst)
                cv2.imwrite(os.path.join(save_path,'rot_'+str(i)+'_'+str(j)+file),dst)
                #cv2.waitKey(0)
                cv2.destroyAllWindows()
    
    
# 隨機裁剪圖片
def cut_img(img_path,save_path):
    all_file=[]
    for file in os.listdir(img_path):
        all_file.append(file)
    file1=random.sample(all_file,2)
    for x in file1:
        im=Image.open(os.path.join(img_path,x))
        crop_all=[]
        for c in range(5):  # 對每張圖片隨機生成5張
            for i in range(4):
                a=random.randint(100,400)
                crop_all.append(a)
            region=im.crop((crop_all[0],crop_all[1],im.size[0]-crop_all[2],im.size[1]-crop_all[3]))
            region.save(os.path.join(save_path,'cut_'+str(c)+'_'+x))
            
#rotate_ima(img_path,save_path)
cut_img(img_path,save_path)

　　然后我大概生成了3000張左右的圖片就開始進行數據標注了，標注了大概六七個小時才把這些數據標注給完成。

　　有了這些標注數據過后，就可以正式開始訓練了。