原文:分析一个文本文件中各个词出现的频率

要求: 写一个程序,分析一个文本文件中各个词出现的频率,并且把频率最高的 个词打印出来。文本文件大约是 KB KB大小。 解决步骤: 读取一个 txt 文本文件 统计文件里面每个词出现的次数 进行排序,打印出频率最高的 个词。 编程语言:java 测试文本:D: wordtest.txt 大小: KB , 字节 性能测试工具:JDK自带的 VisualVM插件 初步思路: 将文件内容存放在 Str ...

2014-03-17 08:28 4 2351 推荐指数:

查看详情

个人作业——统计多个文本文件的单词及词组出现频率

作业要求 1. 对源文件(*.txt,*.cpp,*.h,*.cs,*.html,*.js,*.java,*.py,*.php等)统计字符数、单词数、行数、词频,统计结果以指定格式输出到默认文件,以及其他扩展功能,并能够快速地处理多个文件 2. 使用性能测试工具进行分析,找到性能的瓶颈并改进 ...

Sat Mar 31 07:27:00 CST 2018 4 1224
python分析文本文件/json

文本文件进行处理 下面来提取test.txt文件里面的数据,并尝试计算它包含多少个单词。我们使用方法split(),它根据一个字符串创建一个单词表。 方法split()以空格为分隔将字符串分拆成多个部分,并将这些部分都存储到一个列表。结果是一个包含字符串中所有单词的列表 ...

Sat Sep 07 03:47:00 CST 2019 0 490
如何判断一个文本文件的编码

检测策略 如果2个字节是0xFF 0xFE,则以Unicode(LE)的方式读取 如果2个字节是0xFE 0xFF,则以Unicode BE的方式读取 如果前2个字节是0xEF 0xB ...

Fri Sep 01 02:24:00 CST 2017 1 1184
[算法]大文本文件找词频最高的10个

问题描述:一个大的英文文本,找到其中出现次数最高的10个单词 思路: 大文本文件肯定是一边读入一边统计,并且要去掉标点符号,以空白分离单词。 要找高频词汇,肯定是要所有的单词都要遍历一次的,关键就是怎么遍历了。为了时间效率高一点,可以采用类似二叉排序树的方法,单词以字母为序,比如abc排在 ...

Sun Apr 22 18:19:00 CST 2012 0 5865
如何把一个TXT文本文件按行数分割成多个文本文件

2011-04-27 12:00:24| 分类: 默认分类 |字号 订阅 网上有很多文本分割软件都是按字节大小来分割的,主要用于小说类的文本分割,对于比较有规则的内容按行数进行分割非常不方便,所以我写了一个按行数把文本文件 ...

Fri Nov 15 04:46:00 CST 2013 5 1715
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM