python利用jieba進行中文分詞去停用詞

本文轉載自查看原文 2018-03-10 16:29 4744

中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。

分詞模塊jieba，它是python比較好用的分詞模塊。待分詞的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建議直接輸入 GBK 字符串，可能無法預料地錯誤解碼成 UTF-8

支持三種分詞模式

1 精確模式，試圖將句子最精確地切開，適合文本分析；

2 全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；

3 搜索引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜索引擎分詞。

# 精確模式 seg_list = jieba.cut("我去過清華大學和北京大學。")

# 全模式 seg_list = jieba.cut("我去過清華大學和北京大學。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去過清華大學和北京大學。")

#精確模式: 我/ 去過/ 清華大學/ 和/ 北京大學/ 。

#全模式: 我/ 去過/ 清華/ 清華大學/ 華大/ 大學/ 和/ 北京/ 北京大學/ 大學/ /

#搜索引擎模式: 我/ 去過/ 清華/ 華大/ 大學/ 清華大學/ 和/ 北京/ 大學/ 北京大學/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
 stayed_line+=word+" "
print stayed_line

w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 （3.1）用ictclas4j進行中文分詞，並去除停用詞中文分詞與停用詞的作用 python調用jieba(結巴)分詞加入自定義詞典和去停用詞功能使用jieba進行數據預處理（分詞，過濾停用詞及標點，獲取詞頻、關鍵詞等（轉）【python】利用jieba中文分詞進行詞頻統計及生成詞雲 Spark 使用ansj進行中文分詞 [Python] 基於 jieba 的中文分詞總結 [Python]jieba切詞添加字典去除停用詞、單字 python 2020.2.10 python 中文分詞庫 jieba庫 Python利用jieba獲取中文詞匯等