jiebaR 中文分詞詳解
一、 分詞
實現來看一下jiebaR 里面最重要的一個函數worker,通過它,我們可以設置一些分詞類型,用戶字典,停用詞等等,函數語法為:
worker(type = "mix" , dict = DICTPATH , hmm = HMMPATH , user = USERPATH , idf = IDFPATH , stop_word = STOPPATH , write = T , qmax = 20 , topn = 5 , encoding = "UTF-8" , detect = T , symbol = F , lines = 1e+05 , output = NULL , bylines = F , user_weight = "max" )
參數注釋:
參數 |
作用 |
type |
指分詞引擎類型,這個包包括mix,mp,hmm,full,query,tag,simhash,keyword,分別指混合模型,支持最大概率,隱式馬爾可夫模型,全模式,索引模型,詞性標注,文本simhash相似度比較,關鍵字提取。 |
dict |
詞庫路徑,默認為dictpath |
hmm |
|
user |
用戶自定義的詞庫 |
idf |
|
stop_word |
用來指定停詞的路徑 |
qmax |
詞的最大查詢長度,默認為20,可用於query分詞類型 |
topn |
關鍵詞的個數,默認為5,可以用於simhash和keyword分詞類型 |
symbol |
輸出是否保留符號,默認為F |
Lines |
文件中最大一次讀取的行數,默認為100000行 |
output |
輸出文件,文件名一般以系統時間結尾 |
bylines |
返回輸入的文件有多少行 |
user_weight |
用戶詞典的詞權重,有“min”,“max”,“median”三個選項 |
另外一個函數是segment,有三個參數,code 好比一個任務,jiebar就是一個worker,到那時擔心worker 對工作的方法不懂,那就用mode 參數告訴worker 怎么做,也就是用什么分詞引擎分詞,作用分別如下:
參數 |
作用 |
code |
中文句子或者文件 |
jiebar |
設置分詞的引擎,也就是worker函數 |
mod |
改變默認的分詞引擎類型,其中包括以下幾個: "mix", "hmm","query","full","level", "mp"
|
接着做一個小測試: