python实现论文查重


作业所属课程 https://edu.cnblogs.com/campus/gdgy/Networkengineering1834
作业要求 https://edu.cnblogs.com/campus/gdgy/Networkengineering1834/homework/11147
作业目标 实现论文查重算法,学会使用PSP表格,然后使用Github管理项目,并用markdown写博文

一、 Github仓库

二、 PSP表格

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 20 40
· Estimate · 估计这个任务需要多少时间 20 40
Development 开发 480 540
· Analysis · 需求分析 (包括学习新技术) 80 90
· Design Spec · 生成设计文档 60 50
· Design Review · 设计复审 60 60
· Coding Standard · 代码规范 (为目前的开发制定合适的规范) 20 30
· Design · 具体设计 30 40
· Coding · 具体编码 150 240
· Code Review · 代码复审 60 60
· Test · 测试(自我测试,修改代码,提交修改) 20 45
Reporting 报告 60 60
· Test Report · 测试报告 30 30
· Size Measurement · 计算工作量 10 10
· Postmortem & Process Improvement Plan · 事后总结, 并提出过程改进计划 20 20
Total · 合计 560 640

三、 论文查重算法原理

1、jaccard算法

jaccard原理图:

四、代码块部分单元测试展示

代码审计:

具体展示时间:

占用内存:

五、单元测试展示代码

  • 对照原文
orig.txt和orig.txt相似度: 100.00%
  • 测试抄袭文本
orig.txt和orig_0.8_add.txt相似度: 68.07%
orig.txt和orig_0.8_del.txt相似度: 48.15%
orig.txt和orig_0.8_dis_1.txt相似度: 70.21%
orig.txt和orig_0.8_dis_10.txt相似度: 53.85%
orig.txt和orig_0.8_dis_15.txt相似度: 34.23%

六、错误异常展示


七、计算模块接口


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM