用Python 3.5結巴分詞包做詞頻統計

本文轉載自查看原文 2017-02-07 15:09 12834 Python 分詞詞頻

工作中有的時候需要對文本進行拆分，然后分析詞頻，分詞用結巴分詞做了一個簡單的，代碼如下：

import pandas  ##引入pandas包
from pandas import Series as sr, DataFrame as df  ##從pandas包引入Series與DataFrame格式
from collections import Counter as cr  ##引入Counter進行計數
import jieba.posseg as pseg  ##引入結巴分詞詞性標注

path = ''  ##讀取文件路徑
data1 = df.read_csv(path,sep= )  ## sep后填文件間隔符，csv一般為'\t'
l = len(data1)
df1=df(columns=['word','type'])
for i in range(l):
    words = pseg.cut(data1.ix[i][x]) ##x填寫要分詞的內容所在列數-1
    for t in words:
        df2 = pd.DataFrame([t.word,t.flag], columns=data2.columns)
        df1.append(df2,ignore_index=True)
df3=df1.groupby(['word','type']).count()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python 分詞並統計詞頻 python進行分詞及統計詞頻 Python中文分詞及詞頻統計 Python 結巴分詞（1）分詞 python jieba分詞小說與詞頻統計中文的分詞+詞頻統計 python 結巴分詞學習 python中文分詞：結巴分詞 Python 結巴分詞 python 中文分詞：結巴分詞