实现一种简单原始的文件相似度计算,即以两文件的公共词汇占总词汇的比例来定义相似度。为简化问题,这里不考虑中文(因为分词太难了),只考虑长度不小于3、且不超过10的英文单词,长度超过10的只考虑前10个字母。 输入格式: 输入首先给出正整数N(≤),为文件总数。随后按以下格式给出每个文件的内容 ...
解题思路: 存储:用一张哈希表存储单词以及对应所在的文件,再用一张文件表,存储每个文件的词汇量以及单词在哈希表中的位置 查询:先在文件表中查询对应的文件名, 取文件词汇量较少的文件名 gt 找到对应文件名中的词汇所在位置 gt 根据此单词的位置到哈希表中查找单词所在文件列表 gt 从而判断该单词是否是两文件的公共词汇 重复步骤 ,直至文件中的单词全部查询完毕 ...
2020-04-08 20:21 0 976 推荐指数:
实现一种简单原始的文件相似度计算,即以两文件的公共词汇占总词汇的比例来定义相似度。为简化问题,这里不考虑中文(因为分词太难了),只考虑长度不小于3、且不超过10的英文单词,长度超过10的只考虑前10个字母。 输入格式: 输入首先给出正整数N(≤),为文件总数。随后按以下格式给出每个文件的内容 ...
一、 实验目的 1. 掌握散列表相关内容 2. 掌握倒排索引表的应用 二、 实验内容和要求 1. 问题描述 实现一种简单原始的文件相似度计算,即以两文件的公共词汇占总词汇的比例来定义相似度。为简化问题,这里不考虑中文(因为分词太难了),只考虑长度 ...
禁止码迷,布布扣,豌豆代理,码农教程,爱码网等第三方爬虫网站爬取! 目录 基于词频的文件相似度 情景需求 测试样例 输入样例 输出样例 情景解析 关注文件,构建文件单词表 ...
词频统计(30 分) 请编写程序,对一段英文文本,统计其中所有不同单词的个数,以及词频最大的前10%的单词。 所谓“单词”,是指由不超过80个单词字符组成的连续字符串,但长度超过15的单词将只截取保留前15个单词字符。而合法的“单词字符”为大小写字母、数字和下划线 ...
词频统计 参考: 对参考的代码进行了一些补充和修改,大体思路没变 并不是想说这题多难,只是在这题可以用STL的很多结构帮助解题,所以能让代码变得很简单 题目 7-1 词频统计 (30 分) 请编写程序,对一段英文文本,统计其中所有不同单词的个数,以及词频最大的前10%的单词。 所谓“单词 ...
一个无重复的非负整数序列,必定对应唯一的一棵形状为完全二叉树的二叉搜索树。本题就要求你输出这棵树的层序遍历序列。 输入格式: 首先第一行给出一个正整数 N(≤),随后第二行给出 N 个不重复的非负 ...
已知两个非降序链表序列S1与S2,设计函数构造出S1与S2的交集新链表S3。 输入格式: 输入分两行,分别在每行给出由若干个正整数构成的非降序序列,用−表示序列的结尾(−不属于这个序列)。数字用空格间隔。 输出格式: 在一行中输出两个输入序列的交集序列,数字间用空格分开,结尾不能有多余空格 ...