中文正則表達式匹配-正則中文匹配


 

import java.util.regex.Pattern;


public class Test5 {
	public static void main(String[] args){
		String str="中國2abcABXa_";//中國你好
		System.out.println("flag:"+empnoValidate(str));
		
	}
	  public static boolean empnoValidate(String str){
	        String regex =  "^[\u4e00-\u9fa5_a-zA-Z0-9]+$";//\\w+
	        boolean b = regex(regex, str);
	        return b;
	    }
	  public static boolean regex(String regex, String str) {
	        boolean flag = false;
	        try {
	            Pattern pattern = Pattern.compile(regex);
	            flag = pattern.matcher(str).matches();
	        } catch (Exception e) {
	        	System.out.println("e:"+e);  
	        }
	        return flag;

	    }

  

中文正則表達式匹配-正則中文匹配

0.1092018.10.16 14:47:36字數 258閱讀 15,936

\w匹配的僅僅是中文,數字,字母,對於國人來講,僅匹配中文時常會用到,見下

匹配中文字符的正則表達式: [\u4e00-\u9fa5]

或許你也需要匹配雙字節字符,中文也是雙字節的字符

匹配雙字節字符(包括漢字在內):[^\x00-\xff] 

注:可以用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)
更多常用正則表達式匹配規則:

英文字母:[a-zA-Z] 數字:[0-9] 

匹配中文,英文字母和數字及_:

^[\u4e00-\u9fa5_a-zA-Z0-9]+$ 

同時判斷輸入長度:

[\u4e00-\u9fa5_a-zA-Z0-9_]{4,10} ^[\w\u4E00-\u9FA5\uF900-\uFA2D]*$ 

1、一個正則表達式,只含有漢字、數字、字母、下划線不能以下划線開頭和結尾:

^(?!_)(?!.*?_$)[a-zA-Z0-9_\u4e00-\u9fa5]+$ 

其中:

^ 與字符串開始的地方匹配

(?!_)  不能以_開頭 (?!.*?_$)  不能以_結尾 [a-zA-Z0-9_\u4e00-\u9fa5]+  至少一個漢字、數字、字母、下划線 

$  與字符串結束的地方匹配

放在程序里前面加@,否則需要\\進行轉義 @"^(?!_)(?!.*?_$)[a-zA-Z0-9_\u4e00-\u9fa5]+$"

(或者:@"^(?!_)\w*(?<!_)$" 或者 @" ^[\u4E00-\u9FA50-9a-zA-Z_]+$ " )

2、只含有漢字、數字、字母、下划線,下划線位置不限:

^[a-zA-Z0-9_\u4e00-\u9fa5]+$ 

3、由數字、26個英文字母或者下划線組成的字符串

^\w+$ 

4、2~4個漢字

@"^[\u4E00-\u9FA5]{2,4}$";

5、

^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$ 

用:(Abc)+ 來分析: XYZAbcAbcAbcXYZAbcAb

 

https://www.jianshu.com/p/8695c2ba8ace

 

#########################################################################################################################

#################################################################################################################################################

 

Java中正則表達式的使用(常用的方法)

 

    這兩天回想了一下正則表達式的使用,順便就總結了一下java的javascript中使用正則表達式的用法,需要看javascript中使用正則的朋友可以看我的另一篇總結,下面我就簡單的介紹一下java中正則表達式的使用。方便自己以后查詢使用,也希望能幫助到大家。===歡迎指正===

    在JDK1.3及之前的JDK版本中並沒有包含正則表達式的類,如果要在Java中使用正則表達式必須使用第三方提供的正則表達式庫。從JDK1.4開始提供了支持正則表達式API,它們位於java.util.regex包中。

 

一、常見的符號的介紹

  1.1  預定義字符類 

符號 說明
    . 任何字符(與行結束符可能匹配也可能不匹配)
    \d 數字:[0-9]
    \D 非數字: [^0-9]
    \s 空白字符:[ \t\n\x0B\f\r]
    \S 非空白字符:[^\s]
    \w 單詞字符:[a-zA-Z_0-9]
    \W 非單詞字符:[^\w]
    \ 轉義字符,比如"\\"匹配"\"    ,"\{"匹配"{"。

 

  1.2 數量詞

符號 說明
   *

等價於{0,}

   匹配0至多個在它之前的字符。例如正則表達式“zo*”能匹配“z”以及“zoo”;正則表達式“.*”意味着能夠匹配任意字符串。

   +

等價於{1,}

   匹配前面的子表達式一次或多次。例如正則表達式9+匹配9、99、999等。

    ?

等價於{0,1}

    匹配前面的子表達式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。此元字符還有另外一個用途,就是表示非貪婪模式匹配,后邊將有介紹

   {n} 匹配確定的 n 次。例如,“e{2}”不能匹配“bed”中的“d”,但是能匹配“seed”中的兩個“e”。
  {n,} 至少匹配n次。例如,“e{2,}”不能匹配“bed”中的“e”,但能匹配“seeeeeeeed”中的所有“e”。
  {n,m} 最少匹配 n 次且最多匹配 m 次。“e{1,3}”將匹配“seeeeeeeed”中的前三個“e”。

 

  1.3 邊界匹配符號

符號 說明
   ^ 行的開頭
   $ 行的結尾
   \b 單詞邊界
   \B 非單詞邊界
   \A 輸入的開頭
   \G 上一個匹配的結尾
   \Z 輸入的結尾,僅用於最后的結束符(如果有的話)
   \z 輸入的結尾

 

   1.3 其他常見符號

   []的使用--或                               說明
   []              匹配括號中的任何一個字符
   [abc] ab 或 c(簡單類)
   [^abc] 任何字符,除了 ab 或 c(否定)
   [a-zA-Z] a 到 z 或 A 到 Z,兩頭的字母包括在內(范圍)
   [a-d[m-p]] a 到 d 或 m 到 p[a-dm-p](並集)
   [a-z&&[def]] de 或 f(交集)
   [a-z&&[^bc]] a 到 z,除了 b 和 c[ad-z](減去)
   [a-z&&[^m-p]] a 到 z,而非 m 到 p[a-lq-z](減去)
   ()的使用  -- 組  
    () 將 () 之間括起來的表達式定義為“組”(group),並且將匹配這個表達式的字符保存到一個臨時區域,這個元字符在字符串提取的時候非常有用。捕獲組可以通過從左到右計算其開括號來編號。
      (\d)  第一組
     ((A)(B(C)))  第一組  ((A)(B(C)))   第二組 (A)   第三組(B(C))  第四組(C)

 

  PS:更多其他符號,可參照  http://www.cnblogs.com/Mustr/p/6057159.html

 

二、常見的操作

  2.1 匹配

    String  matches()方法。用規則匹配整個字符串,只要有一處不符合規則,就匹配結束,返回false。

  舉例:

復制代碼
public static void checkQQ(){
        String qq = "123a45664";

        String regex = "[1-9]\\d{4,14}";

        boolean flag = qq.matches(regex);
        if(flag)
            System.out.println(qq+"...is ok");
        else
            System.out.println(qq+"... 不合法");
         
}             //不合法
 
           
復制代碼

 

復制代碼
      /*
    匹配
    手機號段只有 13xxx 15xxx 18xxxx

    */
    public static void checkTel()
    {
        String tel = "16900001111";
        String telReg = "1[358]\\d{9}";
        System.out.println(tel.matches(telReg));
    }
復制代碼

 

 

  2.2 切割

     String split()方法;       根據給定正則表達式的匹配拆分此字符串。返回一個數組。

  舉例:

復制代碼
    public static void splitDemo()
        {
    
        String str = "avg   bb   geig   glsd   abc";
        String reg = " +";//按照多個空格來進行切割
        String[] arr = str.split(reg);  
        System.out.println(arr.length);
        for(String s : arr)
        {
            System.out.println(s);
        }
    }        
復制代碼

 

  組group舉例:

復制代碼
public static void splitDemo()
        {
    
        String str = "erkktyqqquizzzzzo";
        String reg ="(.)\\1+";//按照疊詞來進行切割
            //可以將規則封裝成一個組。用()完成。組的出現都有編號。
            //從1開始。 想要使用已有的組可以通過  \n(n就是組的編號)的形式來獲取。
        String[] arr = str.split(reg);  
        System.out.println(arr.length);
        for(String s : arr)
        {
            System.out.println(s);
        }
    }  
     // er,ty,ui,o
復制代碼

 

 

  2.3 替換

    String replaceAll(regex,str)方法;     使用給定的 replacement 替換此字符串所有匹配給定的正則表達式的子字符串。

      ps:如果regex中有定義組,可以在第二參數中通過$符號獲取正則表達式中的已有的組。

    舉例:

復制代碼
    public static void replaceAllDemo()
    {
    
        String str = "wer1389980000ty1234564uiod234345675f";//將字符串中的數字替換成#。
 
        str = str.replaceAll("\\d{5,}","#");

        System.out.println(str);
    }
        // wer#ty#uio#f
復制代碼

 

    組group舉例:

復制代碼
  public static void replaceAllDemo()
    {
    
        String str1 = "erkktyqqquizzzzzo";//將疊詞替換成$.  //將重疊的字符替換成單個字母。zzzz->z
 
        str = str.replaceAll("(.)\\1+","$1");

        System.out.println(str);
    }
        // erktyquizo
復制代碼

 

 

  2.4獲取    

      ----將字符串中的符合規則的子串取出。

    操作步驟:
    1,將正則表達式封裝成對象。
    2,讓正則對象和要操作的字符串相關聯。
    3,關聯后,獲取正則匹配引擎。
    4,通過引擎對符合規則的子串進行操作,比如取出。

  舉例:

復制代碼
public static void getDemo()
    {
        String str = "yin yu shi wo zui cai de yu yan";
        System.out.println(str);
        String reg = "\\b[a-z]{3}\\b";//匹配只有三個字母的單詞

        //將規則封裝成對象。
        Pattern p = Pattern.compile(reg);

        //讓正則對象和要作用的字符串相關聯。獲取匹配器對象。
        Matcher m  = p.matcher(str);

        //System.out.println(m.matches());//其實String類中的matches方法。用的就是Pattern和Matcher對象來完成的。
        //只不過被String的方法封裝后,用起來較為簡單。但是功能卻單一。

       // boolean b = m.find();//將規則作用到字符串上,並進行符合規則的子串查找。
       // System.out.println(b);
       // System.out.println(m.group());//用於獲取匹配后結果。
        
        
        while(m.find())
        {
            System.out.println(m.group());
            System.out.println(m.start()+"...."+m.end());
                // start()  字符的開始下標(包含)
                //end()  字符的結束下標(不包含)
        }
    }        
復制代碼

 

 

三、總結

  什么情況下使用什么方法呢??????  

    思路方式:
    1,如果只想知道該字符是否對是錯,使用匹配。
    2,想要將已有的字符串變成另一個字符串,替換。
    3,想要按照自定的方式將字符串變成多個字符串。切割。獲取規則以外的子串。
    4,想要拿到符合需求的字符串子串,獲取。獲取符合規則的子串。

 以上內容是常用方式的總結,想使用好java正則,多去研究 pattern  和 matcher 兩個對象,。。都在java.util.regex包下。

      ========歡迎指正=========

 
https://www.cnblogs.com/Mustr/p/6060242.html
 
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM