此軟件為原創軟件。
PDF批量ocr識別以及圖片批量識別工具!
支持多次,多pdf,圖片批量ocr,不限量識別!
目標:批量ocr需求的人士。大大提升工作學習效率。
工作和學習過程中,會遇到很多掃描件,無法復制造成學習和生產力效率低下。我們可以通過批量ocr解決這個困擾!轉換成可復制的文字,便於整理,修改,筆記。。
OCR3000 v1.53版下載地址:
1
鏈接: https://pan.baidu.com/s/1NroV2zx1Gbjol1yEwSD9vw
提取碼: ksf4
2
https://wws.lanzoui.com/b0267lwhg
密碼:agct
需要獲得百度的key密鑰,即注冊一個百度ai賬號,(如果有百度網盤賬號掃碼就行)軟件設置中輸入ocr普通版的秘鑰,就可以用啦!
方法:
如何使用百度智能雲OCR獲取APIKey和SecretKey_Maple-CSDN博客blog.csdn.net
如何申請百度文字識別apikey和Secret Keyblog.csdn.net
具體功能如下
基礎版:
1 掃描pdf轉txt 批量ocr,輸出txt 准確率98%-100% 看掃描件的質量越高識別率越高。
2 識別后的txt文件排版優化,消除非段落換行,首行縮進。
3 非掃描pdf轉txt (ocr方式)
4 pdf輸出同時,保存json,方便二次制作。
5 掃描pdf 批量ocr,輸出txt和Pdf,並且保留原pdf書簽目錄 掃描件質量越高識別率越高最高100%
6 輸出的pdf完美匹配 ipad 手機 電紙書 任意調整每一行的字數。
7 錯誤日志記錄
8 所有ocr都將另保存為json格式,以后可以任意定制pdf版式 比如字體 字號 行間距 字數
高級版(逐步開放)
1 動態查看任務識別進度
2 圖片批量導入 ocr輸出txt 和pdf
3 識別雙欄排版。
4 識別三多欄排版。
5 識別不規則排版,並重排。
6、智能重排功能。
7、人工智能識別段落,標題,章節標題目錄,頁碼,文檔中圖片。並重排。
8 任意類型的圖片可以ocr
9 人工智能識別后導出word格式
10 根據json元數據創建pdf
11 本地ocr引擎
ocr3000優勢:
1、pdf,圖片的批量ocr:
批量識別,實現了大批量轉換,工作學習效率大大提高。
2、識別率高:
利用百度提供的api接口,實現了98%-100%的識別正確率。
使用方法:
下載后解壓縮文件,雙擊ocr3000.exe運行軟件。
點擊“設置”,輸入百度的兩個key文件。 key的獲取方法見上文。

拖動需要識別的pdf到上方窗口,點擊右側的pdf---pdf或者pdf--txt按鈕。
同理 圖片的批量識別方法相同,拖動圖片到上方窗口,點擊pdf-txt 或者pdf-pdf完成圖片的識別(一按鈕多用途)

旁邊的小黑框可以顯示每一步的進度提示。
制作完成后,右側下方有四個查看按鈕,可以打開識別完成的目錄。
識別完成的文件分為兩個,一個是未進行排版優化的原版txt,一個是優化排版后的txt,方便用戶選擇使用。
識別前:

識別后的pdf,全轉換成文字了,這樣可以整本書搜索了! 很方便!:

同時會保存一個原版txt和優化后的txt,可以輕量化閱讀,做筆記:

輸出的pdf可以設置:

有三種輸出可以勾選,我默認給大家做了一個28字每行的格式。
剩下兩種按需勾選,可以設置成用戶自己喜愛的格式。比如每行21個字。
然后勾選前面的復選框,點確定,重啟軟件即可生效。
精度設置:
全自動無損提取pdf中的圖片
無法無損提取的圖片則進行有損導出,設置如下:
設置-導出圖片清晰度 默認是4 一般選用1-4 數字越大,ocr之前導出的每張圖片越清晰,但導出速度越慢。反之越小,導出的圖片越模糊,但速度快。
txt優化排版:同理,拖動待處理txt文件到上方窗口,點右側“txt優化排版”即可。
可以首行縮進,可以取消段落換行。
優化后的效果如下:

Win10用戶注意:
假故障:
程序進行ocr等任務時,cmd界面(小黑框)會卡死,這時候用鼠標點一下小黑框(cmd界面),單機回車,則繼續處理。
原因:
由於win10的cmd開啟了快速編輯模式,導致鼠標一點黑框就暫停了。
解決方法:
點擊cmd黑框右上角-默認值-取消勾選“快速編輯模式” ,重啟程序 即可!
