如何在java中去除中文文本的停用詞


1.  整體思路

第一步:先將中文文本進行分詞,這里使用的HanLP-漢語言處理包進行中文文本分詞。

第二步:使用停用詞表,去除分好的詞中的停用詞。

2.  中文文本分詞環境配置

使用的HanLP-漢語言處理包進行中文文本分詞。

·HanLP-漢語言處理包下載,可以去github上下載

·HanLP 的環境配置有兩種方式:方式一、Maven;方式二、下載jar、data、hanlp.properties。

·官方環境配置步驟也可以在github上查詢到。

·環境配置好后,java使用HanLP進行中文分詞文檔如下:hanlp.linrunsoft.com/doc.html

3.  下載停用詞表

停用詞表可以去百度或者其他搜索引擎檢索一份,很容易就找到!

4.  去除停用詞工具類

使用這個工具類的之前,請先完成中文文本分詞環境配置,並測試一下。停用詞 .txt 文件路徑請修改為自己的本地路徑。

 

1

5.  工具類測試

5.1  測試代碼

public class test {

    public static void main(String args[]) {

        try {

            System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。舉頭望明月,低頭思故鄉。"));

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

 

5.2  測試結果

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM