玩轉PDF之 ocr3000 重度ocr批量識別愛好者的福音！

本文轉載自查看原文 2021-06-17 00:47 321

此軟件為原創軟件。

PDF批量ocr識別以及圖片批量識別工具！

支持多次，多pdf，圖片批量ocr,不限量識別！

目標:批量ocr需求的人士。大大提升工作學習效率。

工作和學習過程中，會遇到很多掃描件，無法復制造成學習和生產力效率低下。我們可以通過批量ocr解決這個困擾！轉換成可復制的文字，便於整理，修改，筆記。。

OCR3000 v1.53版下載地址：

鏈接: https://pan.baidu.com/s/1NroV2zx1Gbjol1yEwSD9vw

提取碼: ksf4

https://wws.lanzoui.com/b0267lwhg
密碼:agct

需要獲得百度的key密鑰，即注冊一個百度ai賬號，（如果有百度網盤賬號掃碼就行）軟件設置中輸入ocr普通版的秘鑰，就可以用啦！

方法:

如何使用百度智能雲OCR獲取APIKey和SecretKey_Maple-CSDN博客blog.csdn.net

如何申請百度文字識別apikey和Secret Keyblog.csdn.net

具體功能如下

基礎版：

1 掃描pdf轉txt 批量ocr，輸出txt 准確率98%-100% 看掃描件的質量越高識別率越高。

2 識別后的txt文件排版優化，消除非段落換行，首行縮進。

3 非掃描pdf轉txt (ocr方式）

4 pdf輸出同時，保存json，方便二次制作。

5 掃描pdf 批量ocr，輸出txt和Pdf，並且保留原pdf書簽目錄掃描件質量越高識別率越高最高100%

6 輸出的pdf完美匹配 ipad 手機電紙書任意調整每一行的字數。

7 錯誤日志記錄

8 所有ocr都將另保存為json格式，以后可以任意定制pdf版式比如字體字號行間距字數

高級版（逐步開放）

1 動態查看任務識別進度

2 圖片批量導入 ocr輸出txt 和pdf

3 識別雙欄排版。

4 識別三多欄排版。

5 識別不規則排版，並重排。

6、智能重排功能。

7、人工智能識別段落，標題，章節標題目錄，頁碼，文檔中圖片。並重排。

8 任意類型的圖片可以ocr

9 人工智能識別后導出word格式

10 根據json元數據創建pdf

11 本地ocr引擎

ocr3000優勢：

1、pdf，圖片的批量ocr：

批量識別，實現了大批量轉換，工作學習效率大大提高。

2、識別率高：

利用百度提供的api接口，實現了98%-100%的識別正確率。

使用方法：

下載后解壓縮文件，雙擊ocr3000.exe運行軟件。

點擊“設置”，輸入百度的兩個key文件。 key的獲取方法見上文。

拖動需要識別的pdf到上方窗口，點擊右側的pdf---pdf或者pdf--txt按鈕。

同理圖片的批量識別方法相同，拖動圖片到上方窗口，點擊pdf-txt 或者pdf-pdf完成圖片的識別（一按鈕多用途）

旁邊的小黑框可以顯示每一步的進度提示。

制作完成后，右側下方有四個查看按鈕，可以打開識別完成的目錄。

識別完成的文件分為兩個，一個是未進行排版優化的原版txt，一個是優化排版后的txt，方便用戶選擇使用。

識別前：

識別后的pdf，全轉換成文字了，這樣可以整本書搜索了！很方便！：

同時會保存一個原版txt和優化后的txt，可以輕量化閱讀，做筆記：

輸出的pdf可以設置：

有三種輸出可以勾選，我默認給大家做了一個28字每行的格式。

剩下兩種按需勾選，可以設置成用戶自己喜愛的格式。比如每行21個字。

然后勾選前面的復選框，點確定，重啟軟件即可生效。

精度設置:

全自動無損提取pdf中的圖片

無法無損提取的圖片則進行有損導出，設置如下：

設置-導出圖片清晰度默認是4 一般選用1-4 數字越大，ocr之前導出的每張圖片越清晰，但導出速度越慢。反之越小，導出的圖片越模糊，但速度快。

txt優化排版：同理，拖動待處理txt文件到上方窗口，點右側“txt優化排版”即可。

可以首行縮進，可以取消段落換行。

優化后的效果如下：

Win10用戶注意:

假故障:

程序進行ocr等任務時，cmd界面（小黑框）會卡死，這時候用鼠標點一下小黑框（cmd界面），單機回車，則繼續處理。

原因:

由於win10的cmd開啟了快速編輯模式，導致鼠標一點黑框就暫停了。

解決方法:

點擊cmd黑框右上角-默認值-取消勾選“快速編輯模式” ，重啟程序即可！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用Python進行PDF圖片識別OCR OCR識別 OCR識別基於Python實現對PDF文件的OCR識別 OCR圖片識別引擎 OCR識別詳細步驟 OCR識別-python版（一） JAVA OCR圖片識別 Opencv學習（四）OCR識別圖片文字OCR識別-tesseract-ocr