python的jieba分词

本文转载自查看原文 2018-09-17 09:45 2028 python

# 官方例程

# encoding=utf-8

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)

print("Full Mode: " + "/ ".join(seg_list)) # 全模式

输出：===============================

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)

print("Default Mode: " + "/ ".join(seg_list)) # 精确模式

输出： ======================

【精确模式】: 我/ 来到/ 北京/ 清华大学

seg_list = jieba.cut("他来到了网易杭研大厦")

# 默认是精确模式

print(", ".join(seg_list))

输出：================

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦 (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造") # 搜索引擎模式

print(", ".join(seg_list))

输出：=================================

【搜索引擎模式】：小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

附上个人案例：

词云wordcloud+jieba+matplotlib做出漂亮的词云效果：

#!usr/bin/env python
#-*- coding:utf-8 _*-
"""
@author:wujf
@file: word.py
@time: 2018/09/14 10:05
必须要安装 matplotlib
"""
import sys
# default_encoding = 'utf-8'
# if sys.getdefaultencoding() != default_encoding:
#     reload(sys)
#     sys.setdefaultencoding(default_encoding)
import jieba
from wordcloud import WordCloud

import matplotlib.pyplot as plt

with open(r"C:\\Users\\lenovo\\PycharmProjects\\Primary\\lover.txt",'r') as f:
    text = f.read()

str  = " ".join(jieba.cut(text))

print type(str)

font = r"C:\\Windows\\Fonts\\微软雅黑\\msyhl.ttc"     #这里一定要些win10电脑里面的中文字体，否则遇到中文字体分不出来
s = WordCloud(font_path=font,
              background_color='black',
              width=1200,
              height=600
              ).generate(str)
s.to_file("cloud.png")
plt.imshow(s)
plt.axis("off")
plt.show()

效果图：

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 分词————jieba分词（Python） jieba 分词库（python） python jieba分词词性 python 分词库jieba python结巴(jieba)分词 Python jieba 分词 Python分词工具——jieba python3 jieba分词 Python使用jieba分词 python jieba 分词进阶