python 讀寫txt文件並用jieba庫進行中文分詞


python用來批量處理一些數據的第一步吧。

對於我這樣的的萌新。這是第一步。

#encoding=utf-8
file='test.txt'
fn=open(file,"r")
print fn.read()
fn.close()

 

在控制台輸出txt文檔的內容,注意中文會在這里亂碼。因為和腳本文件放在同一個地方,我就沒寫路徑了。

 

還有一些別的操作。

這是文件open()函數的打開mode,在第二個參數中設置。特別需要注意一下。具體還有一些別的細節操作。

http://www.jb51.net/article/87398.htm

可以具體看上面這個博主,自己做test熟悉。我只是做一個簡單的操作test。


 

這里用jieba庫,對文檔做一個中文分詞的操作,以便我們以后對這些txt文檔進行更好的分類操作。

http://www.oschina.net/p/jieba/?fromerr=5wT4rbGx

具體可以看這個。jieba庫的安裝很方便,只要安裝了pip,配置好了環境變量。

在命令行輸入

pip install jieba

就可以自行安裝了。

 

我試了他的幾個函數,不知道為什么不能正常地在txt文檔輸出結果。= =只有一個可以正常使用。

(2017.05.19補充:其中所有的函數都可以在txt文檔輸出結果,只需要在前面加上三行代碼即可。)

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

具體原因可以參照http://www.cnblogs.com/weedboy/p/6862158.html

 

#encoding=utf-8
import jieba
import jieba.posseg as pseg
import re
filename='result.txt'
fileneedCut='test.txt'
fn=open(fileneedCut,"r")
f=open(filename,"w+")
for line in fn.readlines():
    words=pseg.cut(line)
    for w in words:
        print >>f,str(w)
f.close()
fn.close()

把需要分詞的txt放到腳本同一目錄就好了。

后面是詞的屬性,左邊是test文件,右邊reault文件,和最流行的ICTCLAS的分詞后屬性貌似是一致的。= =。有點迷。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM