【數據挖掘】學術文獻信息抽取


1、需求

  a>先下載一篇病原微生物相關的論文,分析出其中的屬性

  b>讀取論文,定位關鍵詞

  c>NLP識別句子的意義,進行信息獲取,嘗試理解信息,整理相關屬性資料  https://blog.csdn.net/sdu_hao/article/details/105292176

2、流程梳理、csdn

  

  1/搜索相關論文,獲得對應的pdf文檔

  2/讀取PDF內容,轉為TXT文件

    pip install pdfplumber

    >>讀取其中的表格,轉為csv輸出--camelot

      python庫camelot安裝及使用中的一些注意事項

  3/確定關鍵字,獲取當前的句子

    把txt按照句子划分行

    正則表達式定位滿足幾個關鍵詞/https://www.jianshu.com/p/41d06a4ed896

    (python挖掘關鍵詞幾個都符合)/信息抽取 https://www.jianshu.com/p/a1994336af2d 

    生物信息文獻數據庫構建與軟件Web自動發布 何瑩

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CMFD&dbname=CMFD2009&filename=2009038794.nh&uniplatform=NZKPT&v=792rwfvbxQgmWx5jLiluhcXFs_df2XzhmTr_OytiMAJFeidjeP6CRcNKdzjhWIba

    即可存入此數據

  4/數據統計

    文本分詞    

    數據清理 

    轉變成普通的txt格式型

    再進行詞頻統計

3、論文搜集

  KeyWord:論文、挖掘、論文挖掘、語義解析、信息抽取

  1、基於Python語言的學術論文數據挖掘與分析——以醫療人工智能相關學術論文為例 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDLAST2021&filename=XMTJ202105010&uniplatform=NZKPT&v=3ewPG-u9tc0Pr_olRzUs4QBOb1NagD8jZc13DOAn1nLcVG03J4RIA_4fz24A7jLl

  2、期刊編輯發表論文情況的文本挖掘與分析https://kns.cnki.net/kcms/detail/detail.aspx?filename=BJXB201904019&dbcode=CJFQ&dbname=CJFDTEMP&v=t2BCYR_QG_w56Jpi43GoOHom_hyW6VKlqBmLEiSISLke5ZbVtu2LCAKI15eE1S3g

  3、基於文本語義的篇章結構分析方法 

  https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=SCPD&dbname=SCPD2020&filename=CN107145479B&uniplatform=NZKPT&v=JaDWgEoeRHvux5PHmfn2X1fjDAfziwIYJROFMAmwycBXl3DOylet80gok8kZqY_E

“步驟1,數據獲取;101獲取純文本數據,使用開源工具將待處理機器不可讀格式文檔轉為機器可讀的TXT格式;

步驟2,正文抽取;102噪聲內容過濾,過濾對結構抽取任務而言的噪音內容,包括:空行、頁眉頁腳、表格內容;103目錄和正文分割,對於有目錄的文本,進行目錄和正文的分割;目錄部分識別出來后將其所有行以及之前行的內容剔除,僅保留其后的正文內容;

步驟3,標題識別和抽取;

步驟4,層級結構構建。”

  4、基於文本挖掘的中文期刊數據分析系統的設計與實現 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CMFD&dbname=CMFD202101&filename=1021534093.nh&uniplatform=NZKPT&v=vLKrbSZ6pC4BtFiHZKakVQlUHQz6sqFDfaE4IhJeABKJt5c1UUqyl3bQDkGJUTla

   5、文本挖掘關鍵詞智能提取系統

https://www.cnblogs.com/ljrj/p/6595076.html

“目前,關鍵詞自動提取方法分為兩類:

1)關鍵詞分配,預先定義一個關鍵詞詞庫,對於一篇文章,從詞庫中選取若干詞語作為文章的關鍵詞;

2)關鍵詞抽取,從文章的內容中抽取一些詞語作為關鍵詞。”

  6、基於詞頻統計分析國內外文本挖掘的研究熱點 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CPFD&dbname=CPFDLAST2018&filename=ZGUH201710001060&uniplatform=NZKPT&v=VKhW5uI-vAkTnUE3CU04Za5wgKoiE_vCCzP-serlihtF1tkXVgrR5QsAImG2ijN0fgW33H4FwZs%3d

   7、中文期刊論文數據治理工作實踐——以挖掘中國知網題錄及PDF文檔為例

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CPFD&dbname=CPFDLAST2018&filename=ZGUH201710001060&uniplatform=NZKPT&v=VKhW5uI-vAkTnUE3CU04Za5wgKoiE_vCCzP-serlihtF1tkXVgrR5QsAImG2ijN0fgW33H4FwZs%3d   pdf處理方法

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM