利用Notepad++處理文本,其中涉及文本的合並,去除空行,插件安裝,查找與替換等。
首先,批量處理文本,也就是把所有的語料放到一個txt文檔中。很好辦,cmd命令下輸入如下操作符就可以了。(表示把E盤目錄下Camera文件下的所有東西都寫入到Camera.txt文檔中,Camera.txt自動創建的。)
如果操作成功,則顯示如下:
然后到E盤Camera.txt中查看就行了。(Notepad++ 打開)
然后就是文本的處理的,發現文本中含有如圖紅線所示的東西,那么就去掉吧!
選擇“搜索”---“替換”,先從簡單的開始。
下面替換部分敲“空格”就OK了。這樣就依次把<DOC> </DOC><TEXT>等去掉了。
剩下的就是比較復雜點的<DOCID>*****</DOCID>,因為****部分是變化了,所以使用正則表達式處理。如圖:
這樣就把所有不相干的東西處理掉了!如圖:干凈了很多了。
最后就是處理文檔,按照“。”、”!“,”?“等標示句子結束的符號進行分句。好辦,不用寫程序,還是用NotePad++ 啦!
點擊“搜索”———“替換”(跟剛才一樣)
查找目標部分寫入“。”“?”等等,一次處理一個吧!替換部分輸入“\r”表示換行。
切記:下面一定要勾選“擴展”,然后“全部替換”。就OK了!其他符號也是這么處理滴。看看效果:
已經分好行了,但是還有很多空白行,十分不美觀。下面就是處理空白行了。這個得安裝一個叫textfx的插件。
把壓縮包中的文件放到Notepad++安裝目錄下的plugins目錄下,然后重啟NotePad++,就出現了。
首先,選擇如圖(表示去除多余的空格):
然后,CTRL+A,全選,
選擇,TextFX----TextFX Edit---Delete Blank Lines 就行了。
最后效果如下: