Solr+ik分詞支持特殊符號分詞


在工具類(CharacterUtil.java)里,找到方法 identifyCharType,加入以下代碼:

 

} else if (ub == Character.UnicodeBlock.GREEK // 希臘符號
                    // 希臘擴展符號
                    || ub == Character.UnicodeBlock.GREEK_EXTENDED
                    // 拉丁字符
                    || ub == Character.UnicodeBlock.BASIC_LATIN
                    // 拉丁補充字符
                    || ub == Character.UnicodeBlock.LATIN_1_SUPPLEMENT
                    // 拉丁擴展A字符
                    || ub == Character.UnicodeBlock.LATIN_EXTENDED_A
                    // 拉丁擴展B字符
                    || ub == Character.UnicodeBlock.LATIN_EXTENDED_B) {
                return CHAR_CHINESE;

            }

原理很簡單,把特殊符號當作中文處理。

不想改代碼的,可以直接下載:

ik-analyzer-7.6.0-symbol.zip


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM