Remover(這個軟件非常easy,稍有電腦操作基礎的人打開后就知道怎么做)。另外讀者須要對ePubBuilder的操作比較了解。
Acrobat轉化為圖片制作EPUB,假設是文字形式的掃描電子書,能夠使用OCR軟件識別以轉化成文字(ABBYY
FineReader識別效果相對較好)。但OCR識別中文准確率不夠高,部分無法識別的漢字須要人工輸入。對於純文本形式的PDF,直接保存為TXT,然后轉換就能夠。
假設文字無法復制。能夠用PDF
Password Remover解密,詳細請參考本文的PDF解密部分。
公司開發而成。PDF
文件是以PostScript語言圖象模型為基礎,不管在哪種打印機上都可保證精確的顏色和准確的打印效果,即PDF會忠實地再現原稿的每個字符、顏色以及圖象。
為什么要轉為HTML,由於這樣的格式全然開源。優點理。出錯率低,也和EPUB內部保存格式一致。

文件,另存為(或導出)。選擇生成HTML3.2格式(無CSS)。生成的時候可能比較慢。一定要耐心等,不要亂點鼠標。easy死機。依據經驗,這里不選擇HTML4.0(CSS1.0),雖然后者有CSS的支持,排版按理說會更好。但其實導入ePubBuilder中出錯率大增,效果也並不好。
假設真遇到這種嚴重問題,我也無能為力了。只是幸運地是,僅僅要PDF比較正常。不會出現這種問題。
假設你在上一步打開HTML時感覺排版已經非常好了,並且沒有多余的東西。能夠直接跳過HTML修正的這些步驟。直接導入到ePubBuilder看效果假設。
替換。“查找模式”為“普通”,“查找目標”為align="center",,“替換為”這個框不填,勾選“循環查找”,然后點擊“所有替換”。
假設一次處理多個文件,則所有打開,點擊“替換所有打開文件”就可以。
相同。“查找目標”分別改為align="left",align="right",align="justify",所有替換。再次打開HTML時。你會發現原先位置有些混亂的圖片看上去好多了。假設有些圖片確實是居中更合適,能夠不所有替換。或者在后文還會利用Word來改動。
用Chrome和Notepad++同一時候打開HTML文件。在Chrome中右擊頁眉圖片,審查元素。底下會有個顯示源代碼的窗體,看清width和height后面相應的表示圖片寬高的數字,切換到Notepad++,還是使用替換功能。首先把“查找模式”改為“正則表達式”,取消勾選“匹配大寫和小寫”,勾選“.
matches newline”。其它選項不變,查找目標為
這時,寬度和高度符合要求的圖片就沒有了。然后在Chrome中刷新,看改動后有沒有問題,假設有問題。在Notepad++中撤銷更改,然后得針對實際情況詳細分析(此處略去)。
一般在Chrome中還能看到一些頁眉沒有被替換掉,原因是他們的寬高可能與之前的有所差距,這時僅僅需反復前面動作即可了。
用Word打開HTML(不推薦其它軟件,由於包括整本書的HTML文件一般非常大,非常多軟件打開非常easy死機。如WPS、DreamWeaver。而Word2010在這方面優化的不錯,2003版的不清楚),打開后能夠全選改動字體等。然后替換,去除少量無法顯示的字符亂碼。即顯示為問號(相同注意盡量不要把原文問號替換沒了),替換掉反復出現的站點信息、廣告等。還有就是文字形式的頁眉頁腳(再次強調,注意盡量不要把原文中和頁眉相同內容替換沒了,Word中能夠依據指定字體來替換,這樣比較方便),對於不是非常規則的頁碼如:第x頁,這種信息去除,則交給ePubBuilder來完畢。然后用Word把圖文中排版不當的進行適度改動,不須要的文件夾則去除,沒有嚴重問題就可以。
注意這里有個問題,假設PDF比較完整,有文件夾,要把文件夾中相應頁碼刪除。就像這樣:前言………………………………………………………………1,這個第一頁在轉換為HTML時就已失去意義了,沒有必要保留。

假設出現了錯誤。請嘗試使用瀏覽器打開另存,用Notepad++刪除綠色的<!--..........-->部分。
此時HTML文件會全然又一次生成,但圖片可能會被WPS轉為png,占用空間通常會增大,不推薦。
。。
。>
然后把圖片目錄的png圖片刪除,將壓縮后的jpg移進去。
最后用瀏覽器打開后確認一下。
非常多PDF因為涉及版權問題,採用了一定的加密手段,最嚴格的一種是打開文件時要求輸入password,如圖所看到的。對於這樣的情況,我們僅僅能使用Advanced
PDF Password Recovery一類軟件暴力破解。這里就不具體介紹了,成功率不高。須要大量時間。
Remover一般就能非常快移除加密限制。從而復制當中的文本。
舉個樣例。假設文中所有“的”字變成了“癿”,我們能夠放心的替換回來。由於這個字非常少見。可是假設“的”字所有變成了“白”字,盲目替換會把“明確”替換成“明的”,就出問題了。
對於這種情況,確實沒有好辦法解決。這一點尤其要注意。
比方以下這邊排版精美的攝影電子書,圖文並茂,文字在圖片中間。轉換成HTML后會如何呢?最后如你所料,有些混亂。這個也不好解決。假設你想制作優質的書,那就在Word中手動改動吧^_^。
(非常可惜我實在沒有這般的耐心。)
可是,PDF編輯器有個非常有意思的地方。比方說,兩段文字原先是一個對象,你在當中插入一個空行,可能它就被分成兩個對象了,反過來,兩個同一性質的對象(都是文字或都是文字),靠得比較近時。又會自己主動並成一個對象。
奇跡就發生了。試想。下圖中如果中間的圖和以下的圖靠得非常近,寬度也一致,然后就奇跡般地組合成一個對象了,然后輸出的HTML中,他們成為了“連體嬰兒”。成了一張圖片,然后。你就不知道該怎么安排旁邊那些描寫敘述性的文字了(除非手工又把圖片切割開)。所以僅僅好希望讀者將就着看吧。哎,PDF轉EPUB的無奈在此也可見一斑了。