结巴分词：全模式、精确模式和搜索引擎模式

本文转载自查看原文 2018-07-27 21:29 4351 NLP

1.jieba.lcut(sentence)：返回的是一个列表

1 seg_list = jieba.lcut("我来到北北京清华大学")
2 print(type(seg_list))
3 print(seg_list)

2.jieba.cut(sentence, cut_all=False)：返回的是一个迭代器，cut_all默认为False(精确模式)，True(全模式)

1 seg_list = jieba.cut("我来到北北京清华大学", cut_all=True) # 结巴分词用于中文分词
2 print("Full Mode:", "/ ".join(seg_list)) #全模式：将语句所有可以组合的词分出来
3 seg_list = jieba.cut("我来到北北京清华大学", cut_all=False)
4 print("Default Mode:", "/ ".join(seg_list)) # 精确模式：将语句划分开
5 seg_list = jieba.cut("他来到了了网网易易杭研大大厦")
6 print(", ".join(seg_list))

3.jieba.cut_for_search(sentence)：返回一个迭代器

jieba.lcut_for_search(sentence)：返回一个集合

搜索引擎模式：在精确模式的基础上，对长词在此划分，

1 seg_list = jieba.cut_for_search("我来到北北京清华大学")
2 print(type(seg_list))
3 print(", ".join(seg_list))
4 seg_list = jieba.lcut_for_search("我来到北北京清华大学")
5 print(type(seg_list))
6 print(seg_list)

分词无论是全模式还是搜索引擎模式都是不会改变语句顺序的，即使语句中一些不相邻的字可以组成一个词，结巴分词并不会把他们划分为一个词。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Elasticsearch由浅入深（八）搜索引擎：mapping、精确匹配与全文搜索、分词器、mapping总结关于搜索引擎及其开发 python搜索引擎搜索引擎的使用【搜索引擎】Solr Suggester 实现全文检索功能-分词和类似Google搜索自动提示 Django之whoosh搜索引擎黑客常用搜索引擎（二）过滤搜索引擎的抓取数据 Golang: 模拟搜索引擎爬虫搜索引擎高级用法