實現一種簡單原始的文件相似度計算,即以兩文件的公共詞匯占總詞匯的比例來定義相似度。為簡化問題,這里不考慮中文(因為分詞太難了),只考慮長度不小於3、且不超過10的英文單詞,長度超過10的只考慮前10個字母。 輸入格式: 輸入首先給出正整數N(≤),為文件總數。隨后按以下格式給出每個文件的內容 ...
解題思路: 存儲:用一張哈希表存儲單詞以及對應所在的文件,再用一張文件表,存儲每個文件的詞匯量以及單詞在哈希表中的位置 查詢:先在文件表中查詢對應的文件名, 取文件詞匯量較少的文件名 gt 找到對應文件名中的詞匯所在位置 gt 根據此單詞的位置到哈希表中查找單詞所在文件列表 gt 從而判斷該單詞是否是兩文件的公共詞匯 重復步驟 ,直至文件中的單詞全部查詢完畢 ...
2020-04-08 20:21 0 976 推薦指數:
實現一種簡單原始的文件相似度計算,即以兩文件的公共詞匯占總詞匯的比例來定義相似度。為簡化問題,這里不考慮中文(因為分詞太難了),只考慮長度不小於3、且不超過10的英文單詞,長度超過10的只考慮前10個字母。 輸入格式: 輸入首先給出正整數N(≤),為文件總數。隨后按以下格式給出每個文件的內容 ...
一、 實驗目的 1. 掌握散列表相關內容 2. 掌握倒排索引表的應用 二、 實驗內容和要求 1. 問題描述 實現一種簡單原始的文件相似度計算,即以兩文件的公共詞匯占總詞匯的比例來定義相似度。為簡化問題,這里不考慮中文(因為分詞太難了),只考慮長度 ...
禁止碼迷,布布扣,豌豆代理,碼農教程,愛碼網等第三方爬蟲網站爬取! 目錄 基於詞頻的文件相似度 情景需求 測試樣例 輸入樣例 輸出樣例 情景解析 關注文件,構建文件單詞表 ...
詞頻統計(30 分) 請編寫程序,對一段英文文本,統計其中所有不同單詞的個數,以及詞頻最大的前10%的單詞。 所謂“單詞”,是指由不超過80個單詞字符組成的連續字符串,但長度超過15的單詞將只截取保留前15個單詞字符。而合法的“單詞字符”為大小寫字母、數字和下划線 ...
詞頻統計 參考: 對參考的代碼進行了一些補充和修改,大體思路沒變 並不是想說這題多難,只是在這題可以用STL的很多結構幫助解題,所以能讓代碼變得很簡單 題目 7-1 詞頻統計 (30 分) 請編寫程序,對一段英文文本,統計其中所有不同單詞的個數,以及詞頻最大的前10%的單詞。 所謂“單詞 ...
一個無重復的非負整數序列,必定對應唯一的一棵形狀為完全二叉樹的二叉搜索樹。本題就要求你輸出這棵樹的層序遍歷序列。 輸入格式: 首先第一行給出一個正整數 N(≤),隨后第二行給出 N 個不重復的非負 ...
已知兩個非降序鏈表序列S1與S2,設計函數構造出S1與S2的交集新鏈表S3。 輸入格式: 輸入分兩行,分別在每行給出由若干個正整數構成的非降序序列,用−表示序列的結尾(−不屬於這個序列)。數字用空格間隔。 輸出格式: 在一行中輸出兩個輸入序列的交集序列,數字間用空格分開,結尾不能有多余空格 ...