python用來批量處理一些數據的第一步吧。
對於我這樣的的萌新。這是第一步。
#encoding=utf-8 file='test.txt' fn=open(file,"r") print fn.read() fn.close()
在控制台輸出txt文檔的內容,注意中文會在這里亂碼。因為和腳本文件放在同一個地方,我就沒寫路徑了。
還有一些別的操作。

這是文件open()函數的打開mode,在第二個參數中設置。特別需要注意一下。具體還有一些別的細節操作。
http://www.jb51.net/article/87398.htm
可以具體看上面這個博主,自己做test熟悉。我只是做一個簡單的操作test。
這里用jieba庫,對文檔做一個中文分詞的操作,以便我們以后對這些txt文檔進行更好的分類操作。
http://www.oschina.net/p/jieba/?fromerr=5wT4rbGx
具體可以看這個。jieba庫的安裝很方便,只要安裝了pip,配置好了環境變量。
在命令行輸入
pip install jieba
就可以自行安裝了。
我試了他的幾個函數,不知道為什么不能正常地在txt文檔輸出結果。= =只有一個可以正常使用。
(2017.05.19補充:其中所有的函數都可以在txt文檔輸出結果,只需要在前面加上三行代碼即可。)
import sys reload(sys) sys.setdefaultencoding( "utf-8" )
具體原因可以參照http://www.cnblogs.com/weedboy/p/6862158.html
#encoding=utf-8 import jieba import jieba.posseg as pseg import re filename='result.txt' fileneedCut='test.txt' fn=open(fileneedCut,"r") f=open(filename,"w+") for line in fn.readlines(): words=pseg.cut(line) for w in words: print >>f,str(w) f.close() fn.close()
把需要分詞的txt放到腳本同一目錄就好了。

后面是詞的屬性,左邊是test文件,右邊reault文件,和最流行的ICTCLAS的分詞后屬性貌似是一致的。= =。有點迷。
