最近想实现一个统计英文档单词出现次数的功能。 查找规则是将文档里连续出现的<字母>判断为一个单词,如:“D) Let's go to d”,会将其判断为D、Let、s、go、to五个单词并统计出现的次数并不区分大小; 最后将将序排序过的统计结果wordNodes输出 ...
一 程序分析 以只读模式读取文件到字符串 对字符串进行数据清洗,返回一个字典 使用正则表达式过滤掉文档中的特殊字符,把它们全部替换为空格,方便后续的分隔操作。 忽略大小写,所以全部使用小写字母 . 只考虑单词频率统计 判断单词列表中的单词是否在单词频率字典中。 如果这个单词在字典中,则该单词的个数加 如果这个单词不在字典中,则以这个单词为键,赋值为 ,表示这个单词第一次出现。 . 考虑单词和词组的 ...
2018-10-05 19:45 1 742 推荐指数:
最近想实现一个统计英文档单词出现次数的功能。 查找规则是将文档里连续出现的<字母>判断为一个单词,如:“D) Let's go to d”,会将其判断为D、Let、s、go、to五个单词并统计出现的次数并不区分大小; 最后将将序排序过的统计结果wordNodes输出 ...
这是一道我们软件工程的个人作业,得到了这个题目,我第一个念头就是用C语言来编写,毕竟别的语言不太精通只能选择C语言! 程序说明:对于这个问题我的理解就是要通过结构体来实现对单词和出现次数的统计,先将文章读入,然后通过每次读入一个字符来判断它是否是字母,如果不是字母,那么就说 ...
作业要求 1. 对源文件(*.txt,*.cpp,*.h,*.cs,*.html,*.js,*.java,*.py,*.php等)统计字符数、单词数、行数、词频,统计结果以指定格式输出到默认文件中,以及其他扩展功能,并能够快速地处理多个文件 2. 使用性能测试工具进行分析,找到性能的瓶颈并改进 ...
选用的英文文本为飘; package myproject1; //先导入飘的文本 //读取飘的文本 //并通过分隔符统计每个单词出现的次数,和计算单词总数 //输出出现次数最多的单词和其出现次数 import java.io.; import java.util.; public class ...
写英语作文的时候,常常要求满足一定的字数,在以往,要么,我们一个一个地数,要么,我们估算一行的单词数,然后用行数进行估算。第一种方法太费时,如果要是写个长篇大论,那几乎是mission imposible,而第二种方法有不太准确。这就给我们留下了一个问题:如何又快又准确地统计一篇英文文章中的单词 ...
[本文出自天外归云的博客园] 题目要求: 1、统计英文文档中每个单词出现的次数。 2、统计结果先按次数降序排序,再按单词首字母降序排序。 3、需要考虑大文件的读取。 我的解法如下: 其中read_big_file方法存在的问题:按大小进行文件读取可能会在边界处将一个单词 ...