【數據挖掘】學術文獻信息抽取

本文轉載自查看原文 2021-11-05 08:36 1222

1、需求

　　a>先下載一篇病原微生物相關的論文，分析出其中的屬性

　　b>讀取論文，定位關鍵詞

　　c>NLP識別句子的意義，進行信息獲取，嘗試理解信息，整理相關屬性資料 https://blog.csdn.net/sdu_hao/article/details/105292176

2、流程梳理、csdn

　　1/搜索相關論文，獲得對應的pdf文檔

　　2/讀取PDF內容，轉為TXT文件

　　　　pip install pdfplumber

　　　　>>讀取其中的表格，轉為csv輸出--camelot

　　　　　　python庫camelot安裝及使用中的一些注意事項

　　3/確定關鍵字，獲取當前的句子

　　　　把txt按照句子划分行

　　　　正則表達式定位滿足幾個關鍵詞/https://www.jianshu.com/p/41d06a4ed896

　　　　（python挖掘關鍵詞幾個都符合）/信息抽取 https://www.jianshu.com/p/a1994336af2d

　　　　生物信息文獻數據庫構建與軟件Web自動發布何瑩

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CMFD&dbname=CMFD2009&filename=2009038794.nh&uniplatform=NZKPT&v=792rwfvbxQgmWx5jLiluhcXFs_df2XzhmTr_OytiMAJFeidjeP6CRcNKdzjhWIba

　　　　即可存入此數據

　　4/數據統計

　　　　文本分詞　　　　

　　　　數據清理

　　　　轉變成普通的txt格式型

　　　　再進行詞頻統計

3、論文搜集

　　KeyWord：論文、挖掘、論文挖掘、語義解析、信息抽取

　　1、基於Python語言的學術論文數據挖掘與分析——以醫療人工智能相關學術論文為例 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDLAST2021&filename=XMTJ202105010&uniplatform=NZKPT&v=3ewPG-u9tc0Pr_olRzUs4QBOb1NagD8jZc13DOAn1nLcVG03J4RIA_4fz24A7jLl

　　2、期刊編輯發表論文情況的文本挖掘與分析https://kns.cnki.net/kcms/detail/detail.aspx?filename=BJXB201904019&dbcode=CJFQ&dbname=CJFDTEMP&v=t2BCYR_QG_w56Jpi43GoOHom_hyW6VKlqBmLEiSISLke5ZbVtu2LCAKI15eE1S3g

　3、基於文本語義的篇章結構分析方法

　　https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=SCPD&dbname=SCPD2020&filename=CN107145479B&uniplatform=NZKPT&v=JaDWgEoeRHvux5PHmfn2X1fjDAfziwIYJROFMAmwycBXl3DOylet80gok8kZqY_E

“步驟1,數據獲取；101獲取純文本數據,使用開源工具將待處理機器不可讀格式文檔轉為機器可讀的TXT格式；

步驟2,正文抽取；102噪聲內容過濾,過濾對結構抽取任務而言的噪音內容,包括：空行、頁眉頁腳、表格內容；103目錄和正文分割,對於有目錄的文本,進行目錄和正文的分割；目錄部分識別出來后將其所有行以及之前行的內容剔除,僅保留其后的正文內容；

步驟3,標題識別和抽取；

步驟4,層級結構構建。”

　　4、基於文本挖掘的中文期刊數據分析系統的設計與實現 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CMFD&dbname=CMFD202101&filename=1021534093.nh&uniplatform=NZKPT&v=vLKrbSZ6pC4BtFiHZKakVQlUHQz6sqFDfaE4IhJeABKJt5c1UUqyl3bQDkGJUTla

　　5、文本挖掘關鍵詞智能提取系統

https://www.cnblogs.com/ljrj/p/6595076.html

“目前，關鍵詞自動提取方法分為兩類：

1)關鍵詞分配，預先定義一個關鍵詞詞庫，對於一篇文章，從詞庫中選取若干詞語作為文章的關鍵詞;

2)關鍵詞抽取，從文章的內容中抽取一些詞語作為關鍵詞。”

　　6、基於詞頻統計分析國內外文本挖掘的研究熱點 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CPFD&dbname=CPFDLAST2018&filename=ZGUH201710001060&uniplatform=NZKPT&v=VKhW5uI-vAkTnUE3CU04Za5wgKoiE_vCCzP-serlihtF1tkXVgrR5QsAImG2ijN0fgW33H4FwZs%3d

　　7、中文期刊論文數據治理工作實踐——以挖掘中國知網題錄及PDF文檔為例

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CPFD&dbname=CPFDLAST2018&filename=ZGUH201710001060&uniplatform=NZKPT&v=VKhW5uI-vAkTnUE3CU04Za5wgKoiE_vCCzP-serlihtF1tkXVgrR5QsAImG2ijN0fgW33H4FwZs%3d pdf處理方法

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 腫瘤分析數據挖掘及信息解讀數據挖掘：基於Spark+HanLP實現影視評論關鍵詞抽取(1) 什么是教育數據挖掘？數據挖掘介紹 Python數據挖掘數據挖掘基本流程什么是數據挖掘數據挖掘步驟數據挖掘之pandas 數據挖掘流程