Python 读取 Word 文档统计词频输出至excel文件

本文转载自查看原文 2020-10-23 16:01 447 Python学习

# -*- coding：utf-8 -*-
# @Author   : chenfei
# @time     : 2020/10/23 15:30
# @File     : 读取word统计词频输出excel.PY
# @Software : PyCharm

import docx
import jieba
from collections import Counter
import pandas as pd

document =docx.Document(r'D:\免安装使用\WeChatDownload v20200423\曹政的梦呓合集10.docx')

content = ' '.join([para.text for para in document.paragraphs])

print(len(content))
# print(content[0:100])

# 中文分词
seg_list = jieba.cut(content,cut_all=False)
print(type(seg_list))

# 过滤标点符号、无意义的单个字
seg_list = [word for word in seg_list if len(word)>1]
# print(seg_list[:30])

# 统计词频
counter = Counter(seg_list)
# # 输出前10个
# for key,count in list(counter.items())[:10]:
#     print(key,count)

# 构造pandas
df = pd.DataFrame(list(counter.items()),columns=['word','count'])
# print(df.head()) # 输出前5行

#排序
df.sort_values(by='count',ascending=False,inplace=True)
print(df.head())

# 输出excel
df.to_excel('分析结果-词频数据.xlsx',index=False)

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 利用Python 统计txt 文档词频次数批量读取word文档里的表格信息并将其输出为excel表格 Python读取word文档内容 spark学习02天-scala读取文件，词频统计使用NOPI读取Word、Excel文档内容【Python】词频统计词频统计（python）（转）用python批量读取word文档并整理关键信息到excel表格【python】读取excel内容并输出 python读取excel并制表输出