從幾個常見需求看掃描電子書處理軟件選擇


作者:馬健
郵箱:stronghorse_mj@hotmail.com
發布:2020.01.04

這幾天在gxsd和eshuyuan都碰到一些人談到掃描電子書處理,很多人的習慣是使用通用圖像處理軟件,包括Photoshop、光影魔術手、美圖秀秀等來處理掃描版電子書。但在我看來,掃描電子書與日常風景照、人物照完全是兩件事情,通用圖像處理軟件盡管功能強大,但在處理掃描電子書時卻會面臨強大的功能無處使,想要的功能又沒有的窘境,沒法與專門為處理掃描電子書而開發的軟件相比。當然如果用處理掃描電子書的軟件去處理日常照片,多半也屬於腦子進水。

口說無憑,就用幾個處理掃描電子書時經常碰到的問題,檢驗一下軟件的成色吧:

1、自動糾斜功能
掃描圖像歪斜是很常見的吧?這個功能很重要是吧?PS等有手動糾斜,自動糾斜有嗎?ScanTailor(ST)、ComocEnhancer Pro(CEP)都有。

2、版心自動居中

在不把書籍切開進行掃描的情況下,掃出來的版心內容偏左、偏右都是必然的事情,但在通用圖像編輯軟件里,版心居中需要多步操作:先切邊,再擴邊。切邊時碰到中縫陰影、黑邊、麻點 等等的干擾,自動切邊就麻爪了,只能靠人。可這對於專門處理掃描電子書的軟件而言,屬於基本必備技能好吧?

3、自動修正光照不均勻的圖像
對於平板掃描儀,這個問題一般不嚴重,只有在厚書的中縫部分會有一些,碰上了就會惡心一陣。可對於用手機或相機拍的書,光照均勻、不需要修正的我只在幾十萬一台的V字型掃描儀上見過,自己拍的一張都沒有,因為日常拍照環境基本上不可能有這么均勻、強烈的布光。如果 不對不均勻光照進行修正,直接把拍攝的圖像轉二值化圖像基本上就是個夢,還是噩夢。PS可以手工修正光照不均勻,自動修正我活久也不見,但對ST、CEP這算個事嗎?ST是全自動,CEP鼠標選一下參數而已。

4、局部自適應二值化
在《The Scan and Share tutorial》中,一再強調書籍應該用300 DPI掃描,然后用軟件處理成600 DPI。不過這篇文章畢竟是幾年前的了,考慮近期和未來顯示器分辨率的發展趨勢,我現在處理純文字頁面基本上都是800 DPI打底,高的甚至到1200 DPI。從300 DPI放大到800 DPI以上,不可避免的會出現模糊,這個時候再用Otsu等全局二值化算法,在對筆畫的粗細等控制上就會顯得無能為力。通用圖像處理軟件只有全局二值化,沒有局部自適應二值化。這方面CEP基本上獨此一家。高倍放大處理的例子見這里:
 https://www.cnblogs.com/stronghorse/p/9425046.html
另外從實際處理的情況看,300 DPI灰度圖如果不放大直接轉成純黑白二值化圖像,筆畫粘連等處理起來效果沒有放大后的好,所以即使考慮在手持設備上看書時可憐的運算能力而不能放太大,但放大到600 DPI應該是底線。

5、高倍數放大后的高階銳化
在高倍放大以后,高斯模糊+局部自適應二值化可以控制筆畫粗細和平滑度,但對筆畫粘連無能為力,只能靠高階銳化硬磕。PS的銳化實在是太溫柔了,與CEP的高斯銳化沒法比。

6、自動去毛刺、自動去麻點
對於二值化圖像,二值化之前用高斯模糊可以適當平滑筆畫、去除孤立點,但二值化過程在筆畫上造成的毛刺和一些顏色較深造成的麻點是去不掉的。如果用通用PS處理,麻點只能用鼠標逐點去除,筆畫上的毛刺只能放大后逐像素去除,有哪個人有這個耐心?可自動去毛刺、自動去麻點對CEP、ST而言全是標配,只不過ST是全自動,沒法進行細部控制,CEP可以根據需要手動配置參數。去毛刺的例子可以看這里: https://www.cnblogs.com/stronghorse/p/7224976.html

7、自動去短線、波浪線
古文里面這些東東比較多,在人名、地名下面(橫排)或左面(豎排)都有,現代文少一點,但頁眉、頁腳和正文中有時候也會有,這些肉眼看沒事,但會對OCR造成干擾,所以如果想OCR,還是要先去除才行。用PS就手工滑鼠標、按Del鍵吧,CEP里對於二值化圖像可以按照參數配置自動去除。

8、雙頁自動切分
掃描的時候為了提高效率,雙頁連掃是常規操作,但看書的時候還是希望逐頁看,所以分頁對掃描書籍處理而言也屬於常規操作。在中縫位置不固定的情況下,PS分頁只能靠手,ST、CEP可以靠算法自動切。

9、曲面展平
在圖書館里拿着手機拍過平攤在桌面上的書頁的人都對這個功能很渴望,PS只提供梯形矯正,還是手動的,更沒有頁面彎曲矯正,而ST、CEP都有自動梯形矯正、自動彎曲頁面展平功能。CEP的自動梯形矯正、自動展平操作見我網盤里的PPT,ST展平的視頻見這里:

鏈接:https://pan.baidu.com/s/1CqFezSFxmWChgR6m9EIF2g
提取碼:ksxs


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM