python實現論文查重


作業所屬課程 https://edu.cnblogs.com/campus/gdgy/Networkengineering1834
作業要求 https://edu.cnblogs.com/campus/gdgy/Networkengineering1834/homework/11147
作業目標 實現論文查重算法,學會使用PSP表格,然后使用Github管理項目,並用markdown寫博文

一、 Github倉庫

二、 PSP表格

PSP2.1 Personal Software Process Stages 預估耗時(分鍾) 實際耗時(分鍾)
Planning 計划 20 40
· Estimate · 估計這個任務需要多少時間 20 40
Development 開發 480 540
· Analysis · 需求分析 (包括學習新技術) 80 90
· Design Spec · 生成設計文檔 60 50
· Design Review · 設計復審 60 60
· Coding Standard · 代碼規范 (為目前的開發制定合適的規范) 20 30
· Design · 具體設計 30 40
· Coding · 具體編碼 150 240
· Code Review · 代碼復審 60 60
· Test · 測試(自我測試,修改代碼,提交修改) 20 45
Reporting 報告 60 60
· Test Report · 測試報告 30 30
· Size Measurement · 計算工作量 10 10
· Postmortem & Process Improvement Plan · 事后總結, 並提出過程改進計划 20 20
Total · 合計 560 640

三、 論文查重算法原理

1、jaccard算法

jaccard原理圖:

四、代碼塊部分單元測試展示

代碼審計:

具體展示時間:

占用內存:

五、單元測試展示代碼

  • 對照原文
orig.txt和orig.txt相似度: 100.00%
  • 測試抄襲文本
orig.txt和orig_0.8_add.txt相似度: 68.07%
orig.txt和orig_0.8_del.txt相似度: 48.15%
orig.txt和orig_0.8_dis_1.txt相似度: 70.21%
orig.txt和orig_0.8_dis_10.txt相似度: 53.85%
orig.txt和orig_0.8_dis_15.txt相似度: 34.23%

六、錯誤異常展示


七、計算模塊接口


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM