原文:[算法]大文本文件中找词频最高的10个词

问题描述:一个大的英文文本,找到其中出现次数最高的 个单词 思路: 大文本文件肯定是一边读入一边统计,并且要去掉标点符号,以空白分离单词。 要找高频词汇,肯定是要所有的单词都要遍历一次的,关键就是怎么遍历了。为了时间效率高一点,可以采用类似二叉排序树的方法,单词以字母为序,比如abc排在edf前面,也排在acd前面。 每读入一个词就进行二叉树排序树的查找操作,找到了节点的统计字段加 ,找不到插入。 ...

2012-04-22 10:19 0 5865 推荐指数:

查看详情

分析一个文本文件各个出现的频率

要求:   写一个程序,分析一个文本文件各个出现的频率,并且把频率最高10打印出来。文本文件大约是30KB~300KB大小。 解决步骤:   1、读取一个 txt 文本文件;   2、统计文件里面每个出现的次数;   3、进行排序,打印出频率 ...

Mon Mar 17 16:28:00 CST 2014 4 2351
用Python读取一个文本文件并统计词频

刚刚在写文章时360浏览器崩溃了,结果内容还是找回来了,感谢博客园的自动保存功能!!! ------------恢复内容开始------------ 最近在学习Python,自己写了一个小程序,可以从指定的路径读取文本文档,并统计其中各单词出现的个数并打印 程序输出 ...

Fri Feb 28 08:22:00 CST 2020 0 2656
利用python实现对一个文本文件词频统计功能

一、程序分析,对程序的四个函数做简要说明 1、读文件到缓冲区 2、处理缓冲区 3、输出词频前十的单词 4、主函数main对之前的方法进行整合 二、代码风格说明 在Python3,Python 2 的 print 声明已经 ...

Wed Oct 10 17:05:00 CST 2018 1 6771
拆分大文本文件

使用git-bash Use the split command in Git Bash to split a file: into files of size 500MB each ...

Thu May 28 00:18:00 CST 2020 1 743
C#实现读写文本文件的数据

【1】首先我们定义一段假数据,这里以一个string为例字   static void Main(string[] args) { string data = "我的数据要开始存入文件了,我好开心啊!覆盖了吗?好像覆盖了,真的覆盖 ...

Thu Jun 29 22:49:00 CST 2017 0 39026
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM