1、需求
a>先下載一篇病原微生物相關的論文,分析出其中的屬性
b>讀取論文,定位關鍵詞
c>NLP識別句子的意義,進行信息獲取,嘗試理解信息,整理相關屬性資料 https://blog.csdn.net/sdu_hao/article/details/105292176
2、流程梳理、csdn
1/搜索相關論文,獲得對應的pdf文檔
2/讀取PDF內容,轉為TXT文件
pip install pdfplumber
>>讀取其中的表格,轉為csv輸出--camelot
python庫camelot安裝及使用中的一些注意事項
3/確定關鍵字,獲取當前的句子
把txt按照句子划分行
正則表達式定位滿足幾個關鍵詞/https://www.jianshu.com/p/41d06a4ed896
(python挖掘關鍵詞幾個都符合)/信息抽取 https://www.jianshu.com/p/a1994336af2d
生物信息文獻數據庫構建與軟件Web自動發布 何瑩
https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CMFD&dbname=CMFD2009&filename=2009038794.nh&uniplatform=NZKPT&v=792rwfvbxQgmWx5jLiluhcXFs_df2XzhmTr_OytiMAJFeidjeP6CRcNKdzjhWIba
即可存入此數據
4/數據統計
文本分詞
數據清理
轉變成普通的txt格式型
再進行詞頻統計
3、論文搜集
KeyWord:論文、挖掘、論文挖掘、語義解析、信息抽取
1、基於Python語言的學術論文數據挖掘與分析——以醫療人工智能相關學術論文為例 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDLAST2021&filename=XMTJ202105010&uniplatform=NZKPT&v=3ewPG-u9tc0Pr_olRzUs4QBOb1NagD8jZc13DOAn1nLcVG03J4RIA_4fz24A7jLl
2、期刊編輯發表論文情況的文本挖掘與分析https://kns.cnki.net/kcms/detail/detail.aspx?filename=BJXB201904019&dbcode=CJFQ&dbname=CJFDTEMP&v=t2BCYR_QG_w56Jpi43GoOHom_hyW6VKlqBmLEiSISLke5ZbVtu2LCAKI15eE1S3g
3、基於文本語義的篇章結構分析方法
https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=SCPD&dbname=SCPD2020&filename=CN107145479B&uniplatform=NZKPT&v=JaDWgEoeRHvux5PHmfn2X1fjDAfziwIYJROFMAmwycBXl3DOylet80gok8kZqY_E
“步驟1,數據獲取;101獲取純文本數據,使用開源工具將待處理機器不可讀格式文檔轉為機器可讀的TXT格式;
步驟2,正文抽取;102噪聲內容過濾,過濾對結構抽取任務而言的噪音內容,包括:空行、頁眉頁腳、表格內容;103目錄和正文分割,對於有目錄的文本,進行目錄和正文的分割;目錄部分識別出來后將其所有行以及之前行的內容剔除,僅保留其后的正文內容;
步驟3,標題識別和抽取;
步驟4,層級結構構建。”
4、基於文本挖掘的中文期刊數據分析系統的設計與實現 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CMFD&dbname=CMFD202101&filename=1021534093.nh&uniplatform=NZKPT&v=vLKrbSZ6pC4BtFiHZKakVQlUHQz6sqFDfaE4IhJeABKJt5c1UUqyl3bQDkGJUTla
https://www.cnblogs.com/ljrj/p/6595076.html
“目前,關鍵詞自動提取方法分為兩類:
1)關鍵詞分配,預先定義一個關鍵詞詞庫,對於一篇文章,從詞庫中選取若干詞語作為文章的關鍵詞;
2)關鍵詞抽取,從文章的內容中抽取一些詞語作為關鍵詞。”
6、基於詞頻統計分析國內外文本挖掘的研究熱點 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CPFD&dbname=CPFDLAST2018&filename=ZGUH201710001060&uniplatform=NZKPT&v=VKhW5uI-vAkTnUE3CU04Za5wgKoiE_vCCzP-serlihtF1tkXVgrR5QsAImG2ijN0fgW33H4FwZs%3d
7、中文期刊論文數據治理工作實踐——以挖掘中國知網題錄及PDF文檔為例
https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CPFD&dbname=CPFDLAST2018&filename=ZGUH201710001060&uniplatform=NZKPT&v=VKhW5uI-vAkTnUE3CU04Za5wgKoiE_vCCzP-serlihtF1tkXVgrR5QsAImG2ijN0fgW33H4FwZs%3d pdf處理方法