巧用NotePad++ 做文本處理


利用Notepad++處理文本,其中涉及文本的合並,去除空行,插件安裝,查找與替換等。

首先,批量處理文本,也就是把所有的語料放到一個txt文檔中。很好辦,cmd命令下輸入如下操作符就可以了。(表示把E盤目錄下Camera文件下的所有東西都寫入到Camera.txt文檔中,Camera.txt自動創建的。

 

如果操作成功,則顯示如下:

 

 

然后到E盤Camera.txt中查看就行了。(Notepad++ 打開)

然后就是文本的處理的,發現文本中含有如圖紅線所示的東西,那么就去掉吧!

選擇“搜索”---“替換”,先從簡單的開始。

 

下面替換部分敲“空格”就OK了。這樣就依次把<DOC> </DOC><TEXT>等去掉了。

 

剩下的就是比較復雜點的<DOCID>*****</DOCID>,因為****部分是變化了,所以使用正則表達式處理。如圖:

 

 

這樣就把所有不相干的東西處理掉了!如圖:干凈了很多了。

 

最后就是處理文檔,按照“。”、”!“,”?“等標示句子結束的符號進行分句。好辦,不用寫程序,還是用NotePad++ 啦!

點擊“搜索”———“替換”(跟剛才一樣)

 

查找目標部分寫入“。”“?”等等,一次處理一個吧!替換部分輸入“\r”表示換行。

切記:下面一定要勾選“擴展”,然后“全部替換”。就OK了!其他符號也是這么處理滴。看看效果:

 

已經分好行了,但是還有很多空白行,十分不美觀。下面就是處理空白行了。這個得安裝一個叫textfx的插件。

把壓縮包中的文件放到Notepad++安裝目錄下的plugins目錄下,然后重啟NotePad++,就出現了。

 

 

首先,選擇如圖(表示去除多余的空格):

然后,CTRL+A,全選,

 

選擇,TextFX----TextFX Edit---Delete Blank Lines 就行了。

最后效果如下:

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM