python 讀寫txt文件並用jieba庫進行中文分詞

本文轉載自查看原文 2017-05-14 22:54 18816 python

python用來批量處理一些數據的第一步吧。

對於我這樣的的萌新。這是第一步。

#encoding=utf-8
file='test.txt'
fn=open(file,"r")
print fn.read()
fn.close()

在控制台輸出txt文檔的內容，注意中文會在這里亂碼。因為和腳本文件放在同一個地方，我就沒寫路徑了。

還有一些別的操作。

這是文件open（）函數的打開mode，在第二個參數中設置。特別需要注意一下。具體還有一些別的細節操作。

http://www.jb51.net/article/87398.htm

可以具體看上面這個博主，自己做test熟悉。我只是做一個簡單的操作test。

這里用jieba庫，對文檔做一個中文分詞的操作，以便我們以后對這些txt文檔進行更好的分類操作。

http://www.oschina.net/p/jieba/?fromerr=5wT4rbGx

具體可以看這個。jieba庫的安裝很方便，只要安裝了pip，配置好了環境變量。

在命令行輸入

pip install jieba

就可以自行安裝了。

我試了他的幾個函數，不知道為什么不能正常地在txt文檔輸出結果。= =只有一個可以正常使用。

（2017.05.19補充：其中所有的函數都可以在txt文檔輸出結果，只需要在前面加上三行代碼即可。）

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

具體原因可以參照http://www.cnblogs.com/weedboy/p/6862158.html

#encoding=utf-8
import jieba
import jieba.posseg as pseg
import re
filename='result.txt'
fileneedCut='test.txt'
fn=open(fileneedCut,"r")
f=open(filename,"w+")
for line in fn.readlines():
    words=pseg.cut(line)
    for w in words:
        print >>f,str(w)
f.close()
fn.close()

把需要分詞的txt放到腳本同一目錄就好了。

后面是詞的屬性，左邊是test文件，右邊reault文件，和最流行的ICTCLAS的分詞后屬性貌似是一致的。= =。有點迷。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用jieba和wordcloud進行中文分詞並生成《悲傷逆流成河》詞雲 IKAnalyzer進行中文分詞和去停用詞 CRF++進行中文分詞實例 Python中文分詞庫——jieba 利用條件隨機場模型進行中文分詞 python實現中文文檔jieba分詞和分詞結果寫入excel文件分詞————jieba分詞（Python） python 將分詞結果寫入txt文件運用jieba庫分詞中文分詞中的戰斗機-jieba庫