Java之正則表達式在字符串中查找中文

本文轉載自查看原文 2018-01-27 20:06 5392

轉自：http://blog.csdn.net/csdn_yaobo/article/details/48377757
本來是要收藏的，但是不知怎么了，點了收藏沒有反應，只好先轉載一下，等能收藏的時候，會刪除此文章

學習了正則表達式后，感覺正則表達式很強大，但是為了更好地理解正則表達式，找了一個很實際的問題來分享一下自己學習的心得。本題目是招聘時的一個題目，題目大致的意思是這樣的：用戶每次在網上消費東西，之后會給商家評論，但是這個評論中會有許多人評論一下小廣告，為了能找出這些評論，我們假設這樣一個場景：

       經常的一些小廣告會有下面一下詞語：”網店地址“，“銷售”，“代購”；

       假如一個用戶的評論是這樣：這家酒店性價比高，提供海外代%……&購*&&6服……&**務”，網店地址：￥……**&*6“；

    要求：匹配出關鍵字，並打印出關鍵字和該條評論。

    就如上面這個題，我想已經表達的夠清楚了，我們該怎么下手呢？我們經常的想法是一個一個掃描匹配，但是這樣是不是太麻煩，而且有的評論中會有很多特殊字符，那我們怎么辦呢？我的思路是這樣，我們匹配的都是關鍵字，也就是漢字，那么可以將上述評論中所有的特殊符號（包括字母，空格，數字等）全部刪除掉，只剩下漢字，然后我們去匹配關鍵字，這樣就簡單了，下來用一段程序說一下怎樣去除特殊符號：



    String string1 = "我愛編w!@#程  www#

她不5454 dadad &*$()###(愛編dadada程w!”;

    String regEx="[`~!@#$%^&*()+=|{}:;\\[\\].<>/?~！@#￥%……&*（）——+|{}【】‘；：”“’。，、？a-zA-Z0-9 ]";
     Pattern c = Pattern.compile(regEx);
     Matcher mc=c.matcher(string1);
     String result =  mc.replaceAll("").trim();  
     System.out.println(result);

解釋一下上面的程序：我給了這樣一句話“我愛編w!@#程 www#

她不5454 dadad &*$()###(愛編dadada程w!”，然后從這句話中找出匹配“編程”關鍵字；然后並輸出，上面regEx是正則表達式，目的是過濾掉所有特殊字符，可能我寫的這個有漏掉的字符，可以根據自己的需要修改，這樣我們就將這句話經過過濾變成了下面這樣：

上面已經去除掉特殊符號了，下來是最關鍵的是怎樣匹配關鍵字呢？又用一個簡單的程序示例說一下：

 Pattern p = Pattern.compile("[編][程]");
     Matcher m = p.matcher(result);
     while(m.find()){
         System.out.println(m.group());

        }

上面那個“(“[編][程]”)”就是匹配關鍵字，不能寫成“[編程]”，如果寫成“[編程]”就會出現每個字和上面那句話匹配，而不是一個詞語匹配，和我們想要的結果截然不同，這個可以參考正則表達式的概念（寫到一個里相當雨或的概念，寫到兩個里就是兩個條件是且的意思如：[0-9,a-z]與[0-9][a-z]）。如果有匹配的，輸出匹配的關鍵字。下面是輸出的結果，這句話中出現了兩次編程，我們都匹配出來了，而且都輸出來了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【Java.Regex】用正則表達式查找Java文件里的字符串 Java正則表達式 .*喜歡.* 用於查找字符串中是否包含了喜歡子串： JavaScript 正則表達式：字符串中查找數字 JavaScript 正則表達式：字符串中查找數字由一段字符串中查找URL引出——正則表達式 java 字符串與正則表達式正則表達式：匹配字符串中的';' Java 編程下正則表達式判斷字符串是否包含中文 Python：用正則表達式，提取字符串中的所有中文存：JavaScript正則表達式提取字符串中字母、數字、中文