jiebaR 中文分詞詳解

一、分詞

實現來看一下jiebaR 里面最重要的一個函數worker，通過它，我們可以設置一些分詞類型，用戶字典，停用詞等等，函數語法為：

worker(type = "mix"
　　　　, dict = DICTPATH
　　　　, hmm = HMMPATH
　　　　, user = USERPATH
　　　　, idf = IDFPATH
　　　　, stop_word = STOPPATH
　　　　, write = T
　　　　, qmax = 20
　　　　, topn = 5
　　　　, encoding = "UTF-8"
　　　　, detect = T
　　　　, symbol = F
　　　　, lines = 1e+05
　　　　, output = NULL
　　　　, bylines = F
　　　　, user_weight = "max"
　　　　)

參數注釋：

參數	作用
type	指分詞引擎類型，這個包包括mix,mp,hmm,full,query,tag,simhash,keyword，分別指混合模型，支持最大概率，隱式馬爾可夫模型，全模式，索引模型，詞性標注，文本simhash相似度比較，關鍵字提取。
dict	詞庫路徑，默認為dictpath
hmm
user	用戶自定義的詞庫
idf
stop_word	用來指定停詞的路徑
qmax	詞的最大查詢長度，默認為20，可用於query分詞類型
topn	關鍵詞的個數，默認為5，可以用於simhash和keyword分詞類型
symbol	輸出是否保留符號，默認為F
Lines	文件中最大一次讀取的行數，默認為100000行
output	輸出文件，文件名一般以系統時間結尾
bylines	返回輸入的文件有多少行
user_weight	用戶詞典的詞權重，有“min”,“max”,“median”三個選項

另外一個函數是segment，有三個參數，code 好比一個任務，jiebar就是一個worker，到那時擔心worker 對工作的方法不懂，那就用mode 參數告訴worker 怎么做，也就是用什么分詞引擎分詞，作用分別如下：

參數	作用
code	中文句子或者文件
jiebar	設置分詞的引擎，也就是worker函數
mod	改變默認的分詞引擎類型，其中包括以下幾個： "mix", "hmm","query","full","level", "mp"

接着做一個小測試：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python 中文分詞：結巴分詞 Elasticsearch 支持中文分詞中文分詞算法綜述隨思：關於中文分詞方法中文分詞技術一：概念 solr中文分詞中文分詞研究入門中文分詞工具 HMM 中文分詞應用基於統計的中文分詞

jiebaR 中文分詞詳解

jiebaR 中文分詞詳解

一、 分詞

免責聲明！

一、分詞