本实例主要用到python的jieba库 首先当然是安装pip install jieba 这里比较关键的是如下几个步骤: 加载文本,分析文本 对数据进行筛选和处理 创建列表显示和排序 具体脚本如下,每一步都有解析,就不分步解释 ...
分析: . 读取小说,以读的形式打开 . 切割小说 . 统计所有词语出现次数 gt 准备一个字典 准备一个多余称呼的列表 如果文中某个人物有多个称呼时,应将多个称呼叠加到某一个称呼上,再将多余的删除 . 对字典进行排序,升序 . 取出出现次数前十的数据 ...
2019-10-29 21:18 0 334 推荐指数:
本实例主要用到python的jieba库 首先当然是安装pip install jieba 这里比较关键的是如下几个步骤: 加载文本,分析文本 对数据进行筛选和处理 创建列表显示和排序 具体脚本如下,每一步都有解析,就不分步解释 ...
一、安装所需要的第三方库 jieba (jieba是优秀的中文分词第三分库) pyecharts (一个优秀的数据可视化库) 《三国演义》.txt下载地址(提取码:kist ) 使用pycharm安装库 打开Pycharm选择【File】下的Settings ...
目标 统计三国演义中出现次数前100,并绘制云图 准备 分析工具:jieba,pandas,matplotlib,wordcloud 数据文档:三国演义.txt(原著),三国人物.txt(三国人名,大约1000多个),三国字.txt(一些常见人名及字,约800) 这些文档,放到了后面 说明 ...
最近在学习网易云课堂上面的一门课,上面有一道测验题我觉得很有意思,记录了下来。 作业详情: 统计 THE TRAGEDY OF ROMEO AND JULIET (罗密欧与朱丽叶)英文小说中各单词出现的次数。小说TXT文件下载链接: 链接:https://pan.baidu.com/s ...
1、知识点 2、标点符号处理,并分词,存储到文件中 3、中文分词统计 4、英文分词统计 ...
1. 分词 分词是自然语言处理中最基础的一个步骤。而jieba分词是中文分词的一个比较好的工具。下面看看可以怎么用jieba进行分词。 结果: 2. 词性识别 结果: 有关于词性识别,还是比较重要的。一般我们识别一句话或一段话,首先要提取的是这句 ...
测试文档test 1 2 3 4 1 2 1 1 sort把相同的放在一起 [root@salt-test ~]# sort test 1 1 1 1 2 2 3 4 uniq -c统计出现的次数 [root@salt-test ...