PyNLPIR python中文分词工具

本文转载自查看原文 2017-09-21 16:09 5419

官网： https://pynlpir.readthedocs.io/en/latest/

github： https://github.com/tsroten/pynlpir

NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统，从2009年开始，为了和以前工作进行大的区隔，并推广NLPIR自然语言处理与信息检索共享平台，调整命名为NLPIR分词系统。

其主要的功能有中文分词，标注词性和获取句中的关键词。

主要用到的函数有两个： pynlpir. segment ( s , pos_tagging=True , pos_names='parent' , pos_english=True )

pynlpir.get_key_words(s, max_words=50, weighted=False)

分词： pynlpir. segment ( s , pos_tagging=True , pos_names='parent' , pos_english=True )

S: 句子

pos_tagging：是否进行词性标注

pos_names：显示词性的父类(parent)还是子类(child) 或者全部(all)

pos_english：词性显示英语还是中文

获取关键词：pynlpir.get_key_words(s, max_words=50, weighted=False)

s: 句子

max_words：最大的关键词数

weighted：是否显示关键词的权重

        
        
        
         
         
         import pynlpir
         
         
         import jieba
         
         
         
         
         
         pynlpir.open()
         
         
         s = '最早的几何学兴起于公元前7世纪的古埃及'
         
         
         # s = 'hscode为0110001234的进口'
         
         
         segments = pynlpir.segment(s, pos_names='all',pos_english=False)
         
         
         for segment in segments:
         
         
          print (segment[0], '\t', segment[1])
         
         
         
         
         
         key_words = pynlpir.get_key_words(s, weighted=True)
         
         
         for key_word in key_words:
         
         
          print (key_word[0], '\t', key_word[1])
         
         
         
         
         
         pynlpir.close()

null

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 python中文分词库——pynlpir 中文分词原理及工具中文分词工具中文分词工具——jieba python中文分词：结巴分词 python 中文分词：结巴分词 [python] 使用Jieba工具中文分词及文本聚类概念中文分词工具探析（二）：Jieba java读取中文分词工具(一) Python分词工具——jieba