python的jieba分詞

本文轉載自查看原文 2018-09-17 09:45 2028 python

# 官方例程

# encoding=utf-8

import jieba

seg_list = jieba.cut("我來到北京清華大學", cut_all=True)

print("Full Mode: " + "/ ".join(seg_list)) # 全模式

輸出：===============================

【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學

seg_list = jieba.cut("我來到北京清華大學", cut_all=False)

print("Default Mode: " + "/ ".join(seg_list)) # 精確模式

輸出： ======================

【精確模式】: 我/ 來到/ 北京/ 清華大學

seg_list = jieba.cut("他來到了網易杭研大廈")

# 默認是精確模式

print(", ".join(seg_list))

輸出：================

【新詞識別】：他, 來到, 了, 網易, 杭研, 大廈 (此處，“杭研”並沒有在詞典中，但是也被Viterbi算法識別出來了)

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所，后在日本京都大學深造") # 搜索引擎模式

print(", ".join(seg_list))

輸出：=================================

【搜索引擎模式】：小明, 碩士, 畢業, 於, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, 后, 在, 日本, 京都, 大學, 日本京都大學, 深造

附上個人案例：

詞雲wordcloud+jieba+matplotlib做出漂亮的詞雲效果：

#!usr/bin/env python
#-*- coding:utf-8 _*-
"""
@author:wujf
@file: word.py
@time: 2018/09/14 10:05
必須要安裝 matplotlib
"""
import sys
# default_encoding = 'utf-8'
# if sys.getdefaultencoding() != default_encoding:
#     reload(sys)
#     sys.setdefaultencoding(default_encoding)
import jieba
from wordcloud import WordCloud

import matplotlib.pyplot as plt

with open(r"C:\\Users\\lenovo\\PycharmProjects\\Primary\\lover.txt",'r') as f:
    text = f.read()

str  = " ".join(jieba.cut(text))

print type(str)

font = r"C:\\Windows\\Fonts\\微軟雅黑\\msyhl.ttc"     #這里一定要些win10電腦里面的中文字體，否則遇到中文字體分不出來
s = WordCloud(font_path=font,
              background_color='black',
              width=1200,
              height=600
              ).generate(str)
s.to_file("cloud.png")
plt.imshow(s)
plt.axis("off")
plt.show()

效果圖：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python分詞工具——jieba python3 jieba分詞 Python使用jieba分詞 python jieba 分詞進階 [Python] 基於 jieba 的中文分詞總結 Python3使用jieba分詞 $好玩的分詞——python jieba分詞模塊的基本用法 python-jieba 安裝+分詞+定位 python 中文分詞庫 jieba庫 python分詞技術——jieba安裝使用