在VS里新建項目后通過nuget添加jieba的組件,如圖:
添加完成后進行開發。
jieba提供對語句的分詞方法,例如:
JiebaSegmenter segmenter=new JiebaSegmenter(); PosSegmenter posSegmenter=new PosSegmenter(segmenter); string text="小明最近在學習機器學習、自然語言處理、雲計算和大數據"; IEnumerable<string> wordList=posSegmenter.Cut(text);

默認的分詞方法無法把“雲計算”當成一個詞語,這時候需要手動添加字典或把這個詞放進分詞JiebaSegmenter 對象里。
JiebaSegmenter seg = new JiebaSegmenter(); seg.AddWord("自然語言處理",1000,"n"); seg.AddWord("機器學習", 1000, "n"); seg.AddWord("雲計算", 1000, "n"); seg.AddWord("大數據", 1000, "n"); PosSegmenter posSegmenter = new PosSegmenter(seg); string text = "小明最近在學習機器學習、自然語言處理、雲計算和大數據"; var wordList = posSegmenter.Cut(text);

這種方式就會把AddWord方法添加的詞當成一個整體來拆分。
但是jieba對時間和地點的分詞結果並不理想,所以這部分的文字需要另外的方式來處理。后續會繼續更新這部分