辦公利器！用Python批量識別發票並錄入到Excel表格

本文轉載自查看原文 2021-06-24 20:11 1519

辰哥今天來分享一篇辦公干貨文章：用Python批量識別發票並錄入到Excel表格。對於財務專業等學生或者公司財務人員來說，將報賬發票等匯總到excel簡直就是一個折磨。

尤其是到年底的時候，公司的財務人員面對一大堆的發票簡直就是苦不堪言。正好我們學會了Python，我們應該將Python的優勢發揮起來。$#

01.場景描述

這里有以四張發票為例（辰哥網上搜的），將發票圖片放到pic文件夾下。

隨便打開一張發票

提取目標：金額、名稱、納稅人識別號、開票人。

最后將每一張發票的這四個內容保存到excel中：

02.准備環境

需要用到的庫如下：

from PIL import Image as PI
import pyocr
import pyocr.builders
from cnocr import CnOcr

安裝的命令如下：

pip install pyocr
pip install cnocr

發票中含有中文內容，我們需要對圖片中的中文進行識別，那么 cnocr 是一個不錯的選擇。

提示：安裝好上面的庫之外，還需要安裝額外的exe文件，不然會出現下面這種錯誤

需要安裝的exe文件：

1. ImageMagick

2. tesseract-OCR

這兩個軟件的安裝過程就不再贅述了，大家可以自行搜索教程進行安裝。

03.提取內容

下面以其中一張圖片為例，講解如何提取目標內容：金額、名稱、納稅人識別號、開票人。

讀取圖片：pic/pic1.jpg

tool = pyocr.get_available_tools()[0]
img_url = "pic/pic1.jpg"
with open(img_url, 'rb') as f:
    a = f.read()
new_img = PI.open(io.BytesIO(a))

1.提取金額

需要截取到發票中金額的位置

## 金額
left = 741
top = 420
right = 850
bottom = 445
image_text1 = new_img.crop((left, top, right, bottom))
#展示圖片
image_text1.show()

這里的left、top、right、bottom的數值是通過多次修改定位而來。大家根據自己的發票內容去定位即可。

接着將圖片中的數字提取出來

同樣的，下面繼續提取：名稱

2.提取名稱

left = 155
top = 450
right = 450
bottom = 470
image_obj2 = new_img.crop((left, top, right, bottom))
image_obj2.show()

這里的名稱是中文的，咱們不能再像提取金額（數字）操作。需要使用到cnocr去將圖片中的中文取出。

image_obj2.save("tmp.jpg")
ocr = CnOcr()
res = ocr.ocr("tmp.jpg")
print("".join(res[0]))

3.提取納稅人識別號

#納稅人識別號
left = 155
top = 470
right = 450
bottom = 490
image_text3 = new_img.crop((left, top, right, bottom))
#展示圖片
image_text3.show()

txt3 = tool.image_to_string(image_text3)
print(txt3)

將圖片中的納稅人識別號提取出來，結果如下：

4.提取開票人

left = 528
top = 550
right = 670
bottom = 600
image_obj4 = new_img.crop((left, top, right, bottom))
image_obj4.show()

image_obj4.save("tmp.jpg")
ocr = CnOcr()
res = ocr.ocr("tmp.jpg")
print("".join(res[0]))

由於有中文，咱們這里同樣和提取名稱一樣，使用cnocr將圖片中的中文取出。

ok這樣我們就將發票中的四個目標內容提取出來，接着將文件夾pic下的所有發票，進行識別將內容保存到excel。

04.批量識別發票並保存到excel

在讀取圖片之前，先將上面的四個操作封裝成函數，方便每一種發票對象進行調用。

讀取文件夾下的所有圖片。

filePath = 'pic'
pic_name = []
for i,j,name in os.walk(filePath):
    pic_name = name
for i in pic_name:
    print(i)

開始進行識別，並將結果寫入到excel中。

for i in pic_name:
    img_url = filePath+"/"+i
    with open(img_url, 'rb') as f:
        a = f.read()
    new_img = PI.open(io.BytesIO(a))
    ## 寫入csv
    outws.cell(row=count, column=1, value=text2(new_img))
    outws.cell(row=count, column=2, value=text3(new_img))
    outws.cell(row=count, column=3, value=text1(new_img))
    outws.cell(row=count, column=4, value=text4(new_img))
    count = count + 1
outwb.save("發票匯總-李運辰.xls")  # 保存結果

最后保存為：發票匯總-李運辰.xls，其結果如下：

05.發票驗證真偽

在辰哥的交流群里，和小伙伴聊到這個內容時，小伙伴建議可以加一個功能：發票驗證真偽。

所有在上面的開始識別之前（自己公司的發票可能不需要查驗這步），先調用一下第三方的接口，對發票進行識別，識別通過之后再將其提取發票中目標內容。

1.申請百度AI應用

2.獲取token

# client_id 為官網獲取的AK， client_secret 為官網獲取的SK
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【官網獲取的AK】&client_secret=【官網獲取的SK】'
response = requests.get(host)
if response:
    print(response.json()['access_token']

這里的client_id 為官網獲取的AK， client_secret 為官網獲取的SK，是上面申請好應用即可獲取