1、問題:
pdf轉word時,文章中會出現數個換行符,其中包括兩種類型的換行符:
1)正常的行結尾。特點是“句號+換行符”
2)非正常的行中換行。特點是在兩個正常的文字中間突然出現“換行符”,從而導致一整行被切斷。
2、解決方案:
將換行符替換為空格。但是這樣做,會誤傷正常的行結尾換行符。因此,需要先將正常的行結尾換行符替換為一個文章中從未出現過的特殊字符,從而將其保護起來。
然后再替換文章中行中換行符。
3、具體步驟
1)使用文檔中未出現過的特殊字符(如“&&&&&&”)替換文章中的“句號+換行符”
2)使用空格替換文章中多余的換行符
3)使用“句號+換行符” 替換 特殊字符(如“&&&&&&”)
注意:
1) ^p匹配換行符
2)文中截圖中 “. ”匹配的是英文狀態下的句號,如果是中文句號結尾,則應寫成 “。”
3)特殊字符的選擇原則是:文章中未出現過
上文討論的是,pdf文字粘貼到word中,word文字會多很多換行符號。其實,還有可能出現下面這種類似換行符的“手動換行符”
遇到這種手動換行符,就不能用 ^p 匹配了,這時候要用 ^l 來匹配。