PyNLPIR python中文分詞工具



        NLPIR分詞系統前身為2000年發布的ICTCLAS詞法分析系統,從2009年開始,為了和以前工作進行大的區隔,並推廣NLPIR自然語言處理與信息檢索共享平台,調整命名為NLPIR分詞系統。    
        其主要的功能有中文分詞,標注詞性和獲取句中的關鍵詞。
        主要用到的函數有兩個:  pynlpir. segment ( s pos_tagging=True pos_names='parent' pos_english=True )
                                                   pynlpir.get_key_words(smax_words=50weighted=False)
           分詞: pynlpir. segment ( s pos_tagging=True pos_names='parent' pos_english=True
                S: 句子    
                pos_tagging:是否進行詞性標注    
                pos_names:顯示詞性的父類(parent)還是子類(child) 或者全部(all)   
                pos_english:詞性顯示英語還是中文
            獲取關鍵詞:pynlpir.get_key_words(smax_words=50weighted=False)
                s: 句子
                max_words:最大的關鍵詞數
                weighted:是否顯示關鍵詞的權重
        
        
        
                
  1. import pynlpir
  2. import jieba
  3. pynlpir.open()
  4. s = '最早的幾何學興起於公元前7世紀的古埃及'
  5. # s = 'hscode為0110001234的進口'
  6. segments = pynlpir.segment(s, pos_names='all',pos_english=False)
  7. for segment in segments:
  8. print (segment[0], '\t', segment[1])
  9. key_words = pynlpir.get_key_words(s, weighted=True)
  10. for key_word in key_words:
  11. print (key_word[0], '\t', key_word[1])
  12. pynlpir.close()
                             
 





免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM