結巴分詞：全模式、精確模式和搜索引擎模式

本文轉載自查看原文 2018-07-27 21:29 4351 NLP

1.jieba.lcut(sentence)：返回的是一個列表

1 seg_list = jieba.lcut("我來到北北京清華大學")
2 print(type(seg_list))
3 print(seg_list)

2.jieba.cut(sentence, cut_all=False)：返回的是一個迭代器，cut_all默認為False(精確模式)，True(全模式)

1 seg_list = jieba.cut("我來到北北京清華大學", cut_all=True) # 結巴分詞用於中文分詞
2 print("Full Mode:", "/ ".join(seg_list)) #全模式：將語句所有可以組合的詞分出來
3 seg_list = jieba.cut("我來到北北京清華大學", cut_all=False)
4 print("Default Mode:", "/ ".join(seg_list)) # 精確模式：將語句划分開
5 seg_list = jieba.cut("他來到了了網網易易杭研大大廈")
6 print(", ".join(seg_list))

3.jieba.cut_for_search(sentence)：返回一個迭代器

jieba.lcut_for_search(sentence)：返回一個集合

搜索引擎模式：在精確模式的基礎上，對長詞在此划分，

1 seg_list = jieba.cut_for_search("我來到北北京清華大學")
2 print(type(seg_list))
3 print(", ".join(seg_list))
4 seg_list = jieba.lcut_for_search("我來到北北京清華大學")
5 print(type(seg_list))
6 print(seg_list)

分詞無論是全模式還是搜索引擎模式都是不會改變語句順序的，即使語句中一些不相鄰的字可以組成一個詞，結巴分詞並不會把他們划分為一個詞。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Elasticsearch由淺入深（八）搜索引擎：mapping、精確匹配與全文搜索、分詞器、mapping總結安全搜索引擎Shodan（搜蛋）命令行模式使用TIPS ES搜索引擎集群模式搭建【Kibana可視化】搜索引擎（2）—— 查詢理解 —— 分詞搜索引擎基礎---分詞和倒排索引簡述垂直搜索引擎中的分詞系統 Lucene.net站內搜索—4、搜索引擎第一版技術儲備（簡單介紹Log4Net、生產者消費者模式）搜索引擎1 搜索引擎3 關於搜索引擎及其開發