階段二:jieba關鍵字提取


content = "該課題針對TDI(甲苯二異氰酸酯)生產廢渣污染問題,將TDI廢渣進行催化水解生成TDA(甲苯二胺)單體,實現了資源再生。創新點如下:1、確定了在溫和反應條件下TDA高收率的水解催化劑和相轉移催化劑;2、研發了高粘度、高沸點物料的連續化液固分離技術,實現了萬噸級工業化生產,並形成了工藝技術軟件包;3、開發了催化劑、水的循環利用和集成換熱技術,降低了能耗和生產成本。采用該工藝生產的TDA,產品檢測合格,滿足TDI生產和其他用戶要求。該技術已獲得中國和美國發明專利(CN 102633651B;US 8,658,828 B2)及實用新型專利(CN 203222567 U),並制定了企業標准(Q/CFY01-2014)。該技術實現了TDI生產過程中排放的焦油廢渣的回收利用,具有明顯的經濟效益、社會效益和環境效益。"

# 第一個參數:待提取關鍵詞的文本
# 第二個參數:返回關鍵詞的數量,重要性從高到低排序
# 第三個參數:是否同時返回每個關鍵詞的權重
# 第四個參數:詞性過濾,為空表示不過濾,若提供則僅返回符合詞性要求的關鍵詞
# 加載停止詞(Stop Words)文本語料庫
jieba.analyse.set_stop_words("stop_words.txt")
# 加載逆向文件頻率(IDF)文本語料庫
jieba.analyse.set_idf_path("idf.txt.big");
keywords = jieba.analyse.extract_tags(content, topK=5, withWeight=True, allowPOS=('n','v',),)
print(keywords)

部分使用的代碼,網上有相關類似的例子,為數據添加關鍵字,具體數據涉及數據安全,無法截圖上傳。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM