jiebaR 中文分詞詳解


jiebaR 中文分詞詳解

一、 分詞

實現來看一下jiebaR 里面最重要的一個函數worker,通過它,我們可以設置一些分詞類型,用戶字典,停用詞等等,函數語法為:

 

worker(type = "mix"
    , dict = DICTPATH
    , hmm = HMMPATH
    , user = USERPATH
    , idf = IDFPATH
    , stop_word = STOPPATH
    , write = T
    , qmax = 20
    , topn = 5
    , encoding = "UTF-8"
    , detect = T
    , symbol = F
    , lines = 1e+05
    , output = NULL
    , bylines = F
    , user_weight = "max"
    )

 

參數注釋:

參數

作用

type

指分詞引擎類型,這個包包括mix,mp,hmm,full,query,tag,simhash,keyword,分別指混合模型,支持最大概率,隱式馬爾可夫模型,全模式,索引模型,詞性標注,文本simhash相似度比較,關鍵字提取。

dict

詞庫路徑,默認為dictpath

hmm

 

user

用戶自定義的詞庫

idf

 

stop_word

用來指定停詞的路徑

qmax

詞的最大查詢長度,默認為20,可用於query分詞類型

topn

關鍵詞的個數,默認為5,可以用於simhash和keyword分詞類型

symbol

輸出是否保留符號,默認為F

Lines

文件中最大一次讀取的行數,默認為100000行

output

輸出文件,文件名一般以系統時間結尾

bylines

返回輸入的文件有多少行

user_weight

用戶詞典的詞權重,有“min”,“max”,“median”三個選項

 

另外一個函數是segment,有三個參數,code 好比一個任務,jiebar就是一個worker,到那時擔心worker 對工作的方法不懂,那就用mode 參數告訴worker 怎么做,也就是用什么分詞引擎分詞,作用分別如下:

參數

作用

code

中文句子或者文件

jiebar

設置分詞的引擎,也就是worker函數

mod

改變默認的分詞引擎類型,其中包括以下幾個:

"mix", "hmm","query","full","level",  "mp"

 

    

 接着做一個小測試:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM