原文:进阶实验5-3.3 基于词频的文件相似度 (30分)-哈希

解题思路: 存储:用一张哈希表存储单词以及对应所在的文件,再用一张文件表,存储每个文件的词汇量以及单词在哈希表中的位置 查询:先在文件表中查询对应的文件名, 取文件词汇量较少的文件名 gt 找到对应文件名中的词汇所在位置 gt 根据此单词的位置到哈希表中查找单词所在文件列表 gt 从而判断该单词是否是两文件的公共词汇 重复步骤 ,直至文件中的单词全部查询完毕 ...

2020-04-08 20:21 0 976 推荐指数:

查看详情

7-44 基于词频文件相似 (30)

实现一种简单原始的文件相似计算,即以两文件的公共词汇占总词汇的比例来定义相似。为简化问题,这里不考虑中文(因为分词太难了),只考虑长度不小于3、且不超过10的英文单词,长度超过10的只考虑前10个字母。 输入格式: 输入首先给出正整数N(≤),为文件总数。随后按以下格式给出每个文件的内容 ...

Tue Feb 11 00:15:00 CST 2020 5 875
实验——散列表(基于词频文件相似)详细过程

一、 实验目的 1. 掌握散列表相关内容 2. 掌握倒排索引表的应用 二、 实验内容和要求 1. 问题描述 实现一种简单原始的文件相似计算,即以两文件的公共词汇占总词汇的比例来定义相似。为简化问题,这里不考虑中文(因为分词太难了),只考虑长度 ...

Fri Feb 19 05:24:00 CST 2021 0 361
PTA习题解析——基于词频文件相似

禁止码迷,布布扣,豌豆代理,码农教程,爱码网等第三方爬虫网站爬取! 目录 基于词频文件相似 情景需求 测试样例 输入样例 输出样例 情景解析 关注文件,构建文件单词表 ...

Sun May 31 06:14:00 CST 2020 0 529
PTA 词频统计(30

词频统计(30 ) 请编写程序,对一段英文文本,统计其中所有不同单词的个数,以及词频最大的前10%的单词。 所谓“单词”,是指由不超过80个单词字符组成的连续字符串,但长度超过15的单词将只截取保留前15个单词字符。而合法的“单词字符”为大小写字母、数字和下划线 ...

Tue Mar 13 07:14:00 CST 2018 0 989
7-1 词频统计 (30 )

词频统计 参考: 对参考的代码进行了一些补充和修改,大体思路没变 并不是想说这题多难,只是在这题可以用STL的很多结构帮助解题,所以能让代码变得很简单 题目 7-1 词频统计 (30 ) 请编写程序,对一段英文文本,统计其中所有不同单词的个数,以及词频最大的前10%的单词。 所谓“单词 ...

Sun Jun 09 06:30:00 CST 2019 0 970
进阶实验2-3.3 两个有序链表序列的交集 (20)

已知两个非降序链表序列S1与S2,设计函数构造出S1与S2的交集新链表S3。 输入格式: 输入两行,分别在每行给出由若干个正整数构成的非降序序列,用−表示序列的结尾(−不属于这个序列)。数字用空格间隔。 输出格式: 在一行中输出两个输入序列的交集序列,数字间用空格分开,结尾不能有多余空格 ...

Sun Mar 15 17:48:00 CST 2020 0 1025
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM