PyNLPIR python中文分詞工具

本文轉載自查看原文 2017-09-21 16:09 5419

官網： https://pynlpir.readthedocs.io/en/latest/

github： https://github.com/tsroten/pynlpir

NLPIR分詞系統前身為2000年發布的ICTCLAS詞法分析系統，從2009年開始，為了和以前工作進行大的區隔，並推廣NLPIR自然語言處理與信息檢索共享平台，調整命名為NLPIR分詞系統。

其主要的功能有中文分詞，標注詞性和獲取句中的關鍵詞。

主要用到的函數有兩個： pynlpir. segment ( s , pos_tagging=True , pos_names='parent' , pos_english=True )

pynlpir.get_key_words(s, max_words=50, weighted=False)

分詞： pynlpir. segment ( s , pos_tagging=True , pos_names='parent' , pos_english=True )

S: 句子

pos_tagging：是否進行詞性標注

pos_names：顯示詞性的父類(parent)還是子類(child) 或者全部(all)

pos_english：詞性顯示英語還是中文

獲取關鍵詞：pynlpir.get_key_words(s, max_words=50, weighted=False)

s: 句子

max_words：最大的關鍵詞數

weighted：是否顯示關鍵詞的權重

        
        
        
                
         
         
         
                 import pynlpir
         
         
         
                 import jieba
         
         
         
                 
         
         
         
                 pynlpir.open()
         
         
         
                 s = '最早的幾何學興起於公元前7世紀的古埃及'
         
         
         
                 # s = 'hscode為0110001234的進口'
         
         
         
                 segments = pynlpir.segment(s, pos_names='all',pos_english=False)
         
         
         
                 for segment in segments:
         
         
         
                  print (segment[0], '\t', segment[1])
         
         
         
                 
         
         
         
                 key_words = pynlpir.get_key_words(s, weighted=True)
         
         
         
                 for key_word in key_words:
         
         
         
                  print (key_word[0], '\t', key_word[1])
         
         
         
                 
         
         
         
                 pynlpir.close()

null

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 中文分詞原理及工具 python中文分詞：結巴分詞 [python] 使用Jieba工具中文分詞及文本聚類概念中文分詞工具探析（二）：Jieba java讀取中文分詞工具(一) Python分詞工具——jieba [Python] 基於 jieba 的中文分詞總結中文分詞工具(LAC) 試用筆記開源中文分詞工具探析（四）：THULAC NLP—三種中文分詞工具