.net環境下 使用jieba進行分詞操作


在VS里新建項目后通過nuget添加jieba的組件,如圖:

添加完成后進行開發。

jieba提供對語句的分詞方法,例如:

JiebaSegmenter segmenter=new JiebaSegmenter();

 PosSegmenter posSegmenter=new PosSegmenter(segmenter);

 string text="小明最近在學習機器學習、自然語言處理、雲計算和大數據";

IEnumerable<string> wordList=posSegmenter.Cut(text);

 

 
        

默認的分詞方法無法把“雲計算”當成一個詞語,這時候需要手動添加字典或把這個詞放進分詞JiebaSegmenter 對象里。

 JiebaSegmenter seg = new JiebaSegmenter();
            seg.AddWord("自然語言處理",1000,"n");
            seg.AddWord("機器學習", 1000, "n");
            seg.AddWord("雲計算", 1000, "n");
            seg.AddWord("大數據", 1000, "n");

            PosSegmenter posSegmenter = new PosSegmenter(seg);
            string text = "小明最近在學習機器學習、自然語言處理、雲計算和大數據";
            var wordList = posSegmenter.Cut(text);

 

 
        

這種方式就會把AddWord方法添加的詞當成一個整體來拆分。

 

但是jieba對時間和地點的分詞結果並不理想,所以這部分的文字需要另外的方式來處理。后續會繼續更新這部分


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM