
前言
2018年3月27日騰訊雲雲+社區聯合騰訊雲智能圖像團隊共同在客戶群舉辦了騰訊雲OCR文字識別——智能圖像分享活動,活動舉辦期間用戶耐心聽分享嘉賓的介紹,並提出了相關的問題,智能圖像團隊的科學家和工程師也耐心解答可用戶的疑問。以下就是活動分享的全部內容。
正文
在日常生活工作中,我們難免會遇到一些問題,比如自己辛辛苦苦寫完的資料,好不容易打印出來卻發現源文件丟了。難的收集了一些名片,卻要很麻煩的一個一個錄入信息。快遞公司的業務越來越好,但每天卻需要花費很多時間登記錄入運單,效率非常的低。
那么,有沒有什么技術能幫助我們解決這些難題呢?有的,那就是OCR文字識別技術。今天我們請到了騰訊雲大數據AI產品中心的AI科學家冀永楠、產品經理Florali、陳英恬,高級工程師肖西華為咱們分享一下騰訊雲近年來在這一領域的探索情況。
什么是OCR?
OCR 是實時高效的定位與識別圖片中的所有文字信息,返回文字框位置與文字內容。支持多場景、任意版面下整 圖文字的識別,以及中英文、字母、數字的識別。通俗的來說,就是將圖片上的文字內容,智能識別成為可編輯的文本,例如:

OCR的技術原理是什么?
OCR本質是圖像識別。其原理也和其他的圖像識別問題基本一樣。包含兩大關鍵技術:文本檢測和文字識別。先將圖像中的特征的提取並檢測目標區域,之后對目標區域的的字符進行分割和分類。
以深度學習興起的時間為分割點,直至近五年之前,業界最為廣泛使用的仍然是傳統的OCR識別技術框架,而隨着深度學習的崛起,基於這一技術的OCR識別框架以另外一種新的思路迅速突破了原有的技術瓶頸(如文字定位、二值化和文字分割等),並已在工業界得到廣泛應用。
首先文本定位,接着進行傾斜文本矯正,之后分割出單字后,並對單字識別,最后基於統計模型(如隱馬爾科夫鏈,HMM)進行語義糾錯。
OCR技術的難點是什么?
復雜背景、藝術字體、低分辨率、非均勻光照、圖像退化、字符形變、多語言混合、文本行復雜版式、檢測框字符殘缺,等等。
如克服這些難點的?
從幾個方面入手。一是使用場景,另一方面是從技術上的改進騰訊優圖實驗室在文本檢測技術方進行了深度優化,提出了Compact Inception,通過設計合理的網絡結構來提升各尺度的文字檢測/提取能力。同時引入RNN多層自適應網絡和Refinement結構來提升檢測完整性和准確性。

騰訊雲OCR目前支持什么功能?
基於騰訊優圖實驗室世界領先的深度學習技術,目前我們已支持: 身份證識別,銀行卡識別,名片識別,營業執照識別,行駛證駕駛證識別,車牌號識別,通用印刷體識別,手寫體識別。
大家可以掃文章頭部的小程序二維碼體驗下我們的小程序。
通用印刷體的技術難點,使用場景
我們知道身份證識別可廣泛應用在金融行業中,有用戶的身份認證中,可以減少用戶的信息輸入,提升效率,提高用戶體驗,營業執照的識別完全省去了手工錄入的繁瑣,還可以為企業省去大量的人力資源成本,這些場景大家都已經比較熟悉。
對於通用印刷體,騰訊優圖實驗室自主設計一整套全方位多尺度文字識別引擎,可攻破模糊,散焦,透視,文字部分遮擋的問題,識別准確率高達90%以上,處於業界領先水平。使用場景廣泛,例如對任意版面上圖像的文字識別,可廣泛應用在印刷文檔、廣告圖、醫療、物流等行業中的識別。
對於通用印刷體有沒有什么好的例子?
例如這個廣告,內容多字體,中英文與數字混合,背景也比較隨意。咱們的OCR通過透視矯正、去模糊等,能大幅還原圖像真實度,極大提升算法的魯棒性。

再例如識別文字密集,行間距小,透視畸變等的海報。人工識別需要不僅耗費時間,肉眼也比較難識別。但騰訊雲OCR 設計了小而精的特征提取網絡,配合先進的預處理技術,識別准確率高達93%以上。

有時候也會遇到識別率不理想的情況,如何可以提高識別准確率?
首先會確認下當前的場景,造成准確度不高的原因。評估可提高的空間設計,之后做出相應的修改,列入預處理等等。
關於騰訊雲手寫體識別這塊有沒有什么案例?
騰訊是國內首家將手寫體識別應用在復雜場景下的服務商,數字識別准確率高達90%以上,單字識別速度在15ms以內,復雜漢字准確率超過80%。
騰訊雲手寫體OCR已運用到的運單識別場景,解決了物流行業每日快遞單人工輸入工作量極大且極易出錯,非常低效等問題。

運單識別與傳統人工識別有什么區別呢?
如果傳統人工識別按照3min/單,1000單需要6.25個人/天,保證運單時效則需要耗費大量人力,考慮人力成本則影響運單及時性,成本和服務難兩全。
我們的運單識別速度可以達到毫秒級/單,並支持24小時識別服務 ,業務增長時只需要投入計算用服務器資源即可,彈性較大。
與傳統識別相比,不僅成本可以降低,提高准確性,還可以保護用戶的隱私泄露風險。
目前OCR應用現實中有很廣泛的應用場景,騰訊雲OCR有什么優勢?
咱們的OCR文字識別技術,目前支持中文簡繁體、英文、數字、標點共10000+標簽,覆蓋上百種字體,生僻字版本更支持2W+標簽 。
那咱們在行業中也有不少落地客戶了吧?
新版手Q就用到了咱們的技術,在掃一掃、聊天窗口和空間圖片大圖預覽共三個入口上支持了提取圖片中文字的功能。
方便用戶閱讀、編輯、保存圖片上的文字,從而可以對提取出的文字進行翻譯、搜索。在多種場景下可以極大提升用戶對圖片上文字的閱讀和記錄效率。

企業微信中的名片識也用到了咱們OCR技術。用戶只需拍照或選擇名片圖片,就能准確快速地識別出名片中的文字,並自動提取為對應的字段,極大簡化了名片錄入流程,也避免了手動錄入過程可能出現的錯誤。

互動QA
經過上面的分享,用戶也提出了不少問題,我們來看看用戶都問了什么?
Q:您好,我想問下OCR 識別是否支持H5開發呢?
A:支持,接口是基於http協議,只要支持http協議都可以使用。
Q:通用印刷體識別剩下的10%,有提高的思路嗎?
A:整體思路還是要回到我們的三大引擎上。逐一進行優化。
- 背景識別
- 定位引擎
- 字段識別引擎
Q:目前印刷體識別上使用的思路是先分割后識別嗎?OCR支持離線識別嗎?
A:思路是先分割后識別,我們的OCR支持離線識別的。
Q:OCR遇到無法分割或者分割錯誤的情況如何處理呢
A:很少有無法分割的情況。分割錯誤肯定會對最后的結果又影響。我們的技術,即便是再字符重疊的情況下也可以做出正確的分割。
Q:我想問下如果針對運單識別場景,請問是否可以智能糾正客戶的地址呢?例如深圳,寫成了深土川。
A:我們會結合NLP技術,結合上下文進行智能糾錯。
Q:目前市面已提供有相關服務,那么咱們在這塊有什么與眾不同的地方或者更有優勢的一面呢?
A:我們在OCR上積累的很多的相關經驗,也是國內首家將手寫體識別應用在復雜場景下的服務商。
Q:那請問騰訊雲OCR業務支持什么語言呀,對文字大小字體等有要求嘛?
A:中文(簡體和繁體),英文及數字。
Q:之前有提到總的分類高達2w+,這種大分類模型是怎么訓練的。
A:分級,分批訓練。
Q:那我還想問您下車牌自動識別已應用於日常生活場景中。想了解下這個的技術難點是什么呢?
A:相比於證照類輸入圖來說,車牌輸入圖受限於實際場景配置的攝像監控設備,及車輛位置的隨機變化,產生各種極端角度及光照案例,其質量變化范圍遠大於證照類采集圖像。
Q:您剛才展示都是平整的圖片,對於手機拍的紙質文檔有一定弧度,比如折過的紙沒壓平,就會有一定弧度,這個能處理嗎?
A:輕微的弧度我們可以通過技術處理,嚴重變形的相對比較困難。
Q:除了支持標准車牌,我們支持識別新能源車嗎?
A:支持的,我們目前已支持藍牌、黃牌、軍牌、警牌、教練車牌、新能源車牌等,目前識別率可達到97%-98%~
Q:請問針對物流公司司機手機拍的照片,一是面單不平整,二是光線有的不理想,三是拍照角度有傾斜。針對以上情況技術方面有沒有解決辦法?
A:拍照角度可以通過幾何算法矯正。光線的問題也可以通過圖像的歸一化增強。單面不平整,這個得看不平整到什么程度了。
Q:車輛運行中,您這個80%的准確率是指車輛運動過程中拍攝下來的圖還是車輛停止時候拍的圖?
A:我們是按幀處理的。
Q:是否可以經過一定數據積累,糾錯等訓練,從而使其能識別手寫文字?
A:我們已實現手寫體識別~
Q:OCR對運動模糊的場景識別率有多高
A:模糊的程度差異性很大。不好做標准化的統計。圖像質量不佳,最直白的處理方法是做圖像的增強。
Q:貴司技術有相關paper可以查閱嗎?
A:
https://cloud.tencent.com/developer/article/1007166
https://cloud.tencent.com/developer/article/1008463
https://cloud.tencent.com/developer/article/1029969
可以看看咱們社區的文章哦~很多文章都是鵝廠的精華呢~
Q:圖片有點模糊,能不能說下比較好具體算法,這個太籠統了
A:有很多的濾波器都可以處理不同程度的模糊圖像。也有采用神經網絡的的方式處理。
我們看到不管是復雜文字識別場景還是小程序應用騰訊雲OCR都可以解決,對本文提問有任何疑問的同學,大家都可以去騰訊雲問答社區(https://cloud.tencent.com/developer/ask)提出自己的疑問,屆時會有邀請相關的產品同學回答您的問題。
感謝大家對騰訊雲雲+社區及騰訊雲智能圖像的支持,如需了解更多騰訊雲OCR識別,請點擊:https://cloud.tencent.com/product/ocr。了解騰訊雲OCR接入流程請點擊:https://cloud.tencent.com/document/product/641/12412。想體驗騰訊雲AI更多產品請掃描下方小程序碼。騰訊雲AI合作請聯系郵箱cloudAI@tencent.com,或添加智能圖像QQ群:188257726。 沒有及時參加本次活動的小伙伴,請查看歷史聊天記錄或等待工作人員將聊天記錄總結后的文章分享。更多優秀文章請關注雲+社區(https://cloud.tencent.com/developer)。
騰訊雲OCR接入流程
第 1 步:登陸賬號注冊並通過實名認證后,您可以登錄【騰訊雲控制台】(鏈接:https://console.cloud.tencent.com/ai)進行使用。如果沒有賬號,請參考 【賬號注冊教程】(鏈接:https://cloud.tencent.com/document/product/378/9603)。
第 2 步:創建秘鑰完成注冊后,您需要在【訪問管理】(鏈接:https://console.cloud.tencent.com/cam/capi )創建秘鑰。AppID、SecretID和SecretKey是您進行應用開發的唯一憑證,請妥善保管。
第 3 步:生成簽名通過簽名來驗證請求的合法性,用戶可以使用AppID、SecretID和SecretKey生成簽名,具體簽名生成方法請參閱【簽名鑒權】(鏈接:https://cloud.tencent.com/document/product/641/12409)
第 4 步:調用API我們為您提供了豐富多樣的API接口,您可以查看並調用【OCR】(鏈接:https://cloud.tencent.com/document/product/641/12407)服務。
第 5 步:查看調用您可以登錄【騰訊雲控制台】(鏈接:https://console.cloud.tencent.com/ai/ocr/namecard),查OCR的各服務調用情況。
此文已由作者授權騰訊雲+社區發布,轉載請注明文章出處
原文鏈接:https://cloud.tencent.com/developer/article/1080576?fromSource=waitui