瀏覽器中復制不能復制的文檔並使用word通配符進行高級替換整理


使用谷歌瀏覽器找到自己需要的文檔卻不能復制,復制並整理的解決辦法如下:

在瀏覽器頁面按“F12”,出現編碼頁面:

選擇“Console”選項卡,在命令提示后輸入“document.body.innerText”后回車,即得到所需要的文本。與網頁上的展示對比

 

 

 選擇復制,或點擊文末的“Copy”拷貝全文,打開work新建文檔粘貼進去。

我們對網頁文檔和復制下來的代碼進行對比:

網頁展示:

 

 

復制下來的文本為: 

 

 

復制粘貼的文本中,每個新行都是上一行的中文漢字后跟兩個“\n\n”再跟英文字符作為分隔。我們需要將這種規則的字符段提取出來將“\n\n”替換為word中的回車。

word中按“ctrl+H”后作如下配置后進行全文替換:

 

 

 其中各選項說明如下:

  查找內容(N):“([一-龥])(\\n)(\\n)([a-zA-Z])”中的四個元組代表4個字符,“[一-龥]”匹配所有漢字,為第1個元組;“\\n”匹配特殊字符“\n”,按照文本中的內容有連續兩個,匹配第2、3兩個元組;“[a-zA-Z]”匹配一個英文字符,為第4個元組。

  替換為(I):“\1^p\4”中“\1”將查找到的第1個元組原樣保留;“^p”為添加一個回車;“\4”將查找的第4個元組原樣保留。第2、第3個元組不再保留丟棄。

  務必選中“搜索選項”中的“使用通配符”復選框,否則word無法識別查找替換內容。

點擊“全部替換(A)”后是這樣的:

 

 

再將頁碼和分頁廣告部分分離出來手工刪除:

 

 

 

 

這里我們看到已經基本將表格內容展示出來了。隨后再將連續兩個“\n\n”替換為制表符,按鍵“ctrl+H”設置查找替換如下:

 

 

 最終成為按行以制表符分隔的word文檔。

如有需要,還可以將word文檔另存為txt后使用excel打開設置表列分隔符為制表符制成excel的表格,查詢時更加清晰。具體操作如下:

將word文檔另存為txt文檔:

 

 

這里選擇“其他編碼(O)”為“簡體中文(GB18030)”,否則會出現“標記為紅色的文字將無法用所選編碼正確保存”的錯誤提示如下:

 

 筆者使用的word為2019版office。

使用excel打開上述txt文件,文件原始格式選擇剛才存儲txt文檔時使用的“簡體中文(GB18030)”,否則會有部分不兼容的情況。

 

 

即可看到熟悉的分列提示,按需要設置:

 

 

最終轉換為excel表格成功。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM