Java - 正則表達式的運用（Pattern模式和Matcher匹配)—— 匹配中文，英文字母和數字及_長度詳解——收集資源blog

默認情況下，正則表達式^和$忽略行結束符，僅分別與整個輸入序列的開頭和結尾匹配。如果激活MULTILINE模式，則^在輸入的開頭和行結束符之后（輸入的結尾）才發生匹配。處於MULTILINE模式中時，$僅在行結束符之前或輸入序列的結尾處匹配。捕獲組可以通過從左到右計算其開括號來編號。例如，在表達式((A)(B(C)))中，存在四個這樣的組：

1 2 3 4 ((A)(B(C)))

(B(C))

(C)

組零始終代表整個表達式。

之所以這樣命名捕獲組是因為在匹配中，保存了與這些組匹配的輸入序列的每個子序列。捕獲的子序列稍后可以通過 Back 引用在表達式中使用，也可以在匹配操作完成后從匹配器獲取。

與組關聯的捕獲輸入始終是與組最近匹配的子序列。如果由於量化的緣故再次計算了組，則在第二次計算失敗時將保留其以前捕獲的值（如果有的話）例如，將字符串"aba"與表達式(a(b)?)+相匹配，會將第二組設置為"b"。在每個匹配的開頭，所有捕獲的輸入都會被丟棄。

以(?)開頭的組是純的非捕獲組，它不捕獲文本，也不針對組合計進行計數。

Unicode 支持

Unicode Technical Standard #18:Unicode Regular Expression Guidelines 第 1 級和 RL2.1 Canonical Equivalents。

Java 源代碼中的 Unicode 轉義序列（如 u2014）是按照 Java Language Specification 的

prop，則與p{prop}匹配，而輸入具有該屬性時與P{prop}不匹配。塊使用前綴In指定，與在InMongolian中一樣。可以使用可選前綴Is指定類別：p{L}和p{IsL} 都表示 Unicode 字母的類別。塊和類別在字符類的內部和外部都可以使用。

The Unicode Standard 的類別。類別名稱是在 Standard 中定義的，即標准又豐富。

methodname方法（廢棄的類別除外）的類別，可以通過相同的p{prop}語法來提供，其中指定的屬性具有名稱javamethodname。

`此類不支持 Perl 構造：`

條件構造(?{X})和(?(condition)X|Y)、

嵌入式代碼構造(?{code})和(??{code})、
嵌入式注釋語法(?#comment)和
預處理操作lu、L和U。

此類支持但 Perl 不支持的構造：

Possessive 數量詞，它可以盡可能多地進行匹配，即使這樣做導致所有匹配都成功時也如此。

上文所述。

與 Perl 的顯著不同點是：

在 Perl 中，1到9 始終被解釋為 Back 引用；如果至少存在多個子表達式，則大於 9 的反斜線轉義數按 Back 引用對待，否則在可能的情況下，它將被解釋為八進制轉義。在此類中，八進制轉義必須始終以零開頭。在此類中，1到9 始終被解釋為 Back 引用，較大的數被接受為 Back 引用，如果在正則表達式中至少存在多個子表達式的話；否則，解析器將刪除數字，直到該數小於等於組的現有數或者其為一個數字。

Perl 使用 g標志請求恢復最后匹配丟失的匹配。此功能是由Matcher類顯式提供的：重復執行find方法調用可以恢復丟失的最后匹配，除非匹配器被重置。
在 Perl 中，位於表達式頂級的嵌入式標記對整個表達式都有影響。在此類中，嵌入式標志始終在它們出現的時候才起作用，不管它們位於頂級還是組中；在后一種情況下，與在 Perl 中類似，標志在組的結尾處還原。

Perl 允許錯誤匹配構造，如在表達式 *a中，以及不匹配的括號，如在在表達式abc] 中，並將其作為字面值對待。此類還接受不匹配的括號，但對 +、? 和 * 不匹配元字符有嚴格限制；如果遇到它們，則拋出PatternSyntaxException。

匹配中文:[\u4e00-\u9fa5]
英文字母:[a-zA-Z]
數字:[0-9]

匹配中文，英文字母和數字及_:
^[\u4e00-\u9fa5_a-zA-Z0-9]+$

同時判斷輸入長度：
[\u4e00-\u9fa5_a-zA-Z0-9_]{4,10}

^[\w\u4E00-\u9FA5\uF900-\uFA2D]*$ 1、一個正則表達式，只含有漢字、數字、字母、下划線不能以下划線開頭和結尾：
^(?!_)(?!.*?_$)[a-zA-Z0-9_\u4e00-\u9fa5]+$  其中：
^  與字符串開始的地方匹配
(?!_)　　不能以_開頭
(?!.*?_$)　　不能以_結尾
[a-zA-Z0-9_\u4e00-\u9fa5]+　　至少一個漢字、數字、字母、下划線
$　　與字符串結束的地方匹配

放在程序里前面加@，否則需要\\進行轉義 @"^(?!_)(?!.*?_$)[a-zA-Z0-9_\u4e00-\u9fa5]+$"
（或者：@"^(?!_)\w*(?<!_)$" 或者  @" ^[\u4E00-\u9FA50-9a-zA-Z_]+$ "  )

2、只含有漢字、數字、字母、下划線，下划線位置不限：
^[a-zA-Z0-9_\u4e00-\u9fa5]+$

3、由數字、26個英文字母或者下划線組成的字符串
^\w+$

4、2~4個漢字
@"^[\u4E00-\u9FA5]{2,4}$";

5、
^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$

用：(Abc)+ 來分析：  XYZAbcAbcAbcXYZAbcAb

XYZAbcAbcAbcXYZAbcAb6、
[^\u4E00-\u9FA50-9a-zA-Z_]
34555#5' -->34555#5'

[\u4E00-\u9FA50-9a-zA-Z_] eiieng_89_ ---> eiieng_89_
_';'eiieng_88&*9_ -->  _';'eiieng_88&*9_
_';'eiieng_88_&*9_  -->  _';'eiieng_88_&*9_

public  bool RegexName(string str)
{
bool flag=Regex.IsMatch(str,@"^[a-zA-Z0-9_\u4e00-\u9fa5]+$");
return  flag;
}

Regex reg=new Regex("^[a-zA-Z_0-9]+$");
if(reg.IsMatch(s))
{
\\符合規則
}
else
{
\\存在非法字符
}

最長不得超過7個漢字，或14個字節(數字，字母和下划線)正則表達式
^[\u4e00-\u9fa5]{1,7}$|^[\dA-Za-z_]{1,14}$

常用正則表達式大全！（例如：匹配中文、匹配html）
匹配中文字符的正則表達式： [u4e00-u9fa5]
評注：匹配中文還真是個頭疼的事，有了這個表達式就好辦了
匹配雙字節字符(包括漢字在內)：[^x00-xff]
評注：可以用來計算字符串的長度（一個雙字節字符長度計2，ASCII字符計1）
匹配空白行的正則表達式：ns*r
評注：可以用來刪除空白行
匹配HTML標記的正則表達式：<(S*?)[^>]*>.*?|<.*? />
評注：網上流傳的版本太糟糕，上面這個也僅僅能匹配部分，對於復雜的嵌套標記依舊無能為力
匹配首尾空白字符的正則表達式：^s*|s*$
評注：可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等)，非常有用的表達式
匹配Email地址的正則表達式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
評注：表單驗證時很實用
匹配網址URL的正則表達式：[a-zA-z]+://[^s]*
評注：網上流傳的版本功能很有限，上面這個基本可以滿足需求
匹配帳號是否合法(字母開頭，允許5-16字節，允許字母數字下划線)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
評注：表單驗證時很實用
匹配國內電話號碼：d{3}-d{8}|d{4}-d{7}
評注：匹配形式如 0511-4405222 或 021-87888822
匹配騰訊QQ號：[1-9][0-9]{4,}
評注：騰訊QQ號從10000開始
匹配中國郵政編碼：[1-9]d{5}(?!d)
評注：中國郵政編碼為6位數字
匹配身份證：d{15}|d{18}
評注：中國的身份證為15位或18位
匹配ip地址：d+.d+.d+.d+
評注：提取ip地址時有用
匹配特定數字：
^[1-9]d*$　　 //匹配正整數
^-[1-9]d*$ 　 //匹配負整數
^-?[1-9]d*$　　 //匹配整數
^[1-9]d*|0$　 //匹配非負整數（正整數 + 0）
^-[1-9]d*|0$　　 //匹配非正整數（負整數 + 0）
^[1-9]d*.d*|0.d*[1-9]d*$　　 //匹配正浮點數
^-([1-9]d*.d*|0.d*[1-9]d*)$　 //匹配負浮點數
^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$　 //匹配浮點數
^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$　　 //匹配非負浮點數（正浮點數 + 0）
^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$　　//匹配非正浮點數（負浮點數 + 0）
評注：處理大量數據時有用，具體應用時注意修正
匹配特定字符串：
^[A-Za-z]+$　　//匹配由26個英文字母組成的字符串
^[A-Z]+$　　//匹配由26個英文字母的大寫組成的字符串
^[a-z]+$　　//匹配由26個英文字母的小寫組成的字符串
^[A-Za-z0-9]+$　　//匹配由數字和26個英文字母組成的字符串
^w+$　　//匹配由數字、26個英文字母或者下划線組成的字符串
在使用RegularExpressionValidator驗證控件時的驗證功能及其驗證表達式介紹如下:
只能輸入數字：“^[0-9]*$”
只能輸入n位的數字：“^d{n}$”
只能輸入至少n位數字：“^d{n,}$”
只能輸入m-n位的數字：“^d{m,n}$”
只能輸入零和非零開頭的數字：“^(0|[1-9][0-9]*)$”
只能輸入有兩位小數的正實數：“^[0-9]+(.[0-9]{2})?$”
只能輸入有1-3位小數的正實數：“^[0-9]+(.[0-9]{1,3})?$”
只能輸入非零的正整數：“^+?[1-9][0-9]*$”
只能輸入非零的負整數：“^-[1-9][0-9]*$”
只能輸入長度為3的字符：“^.{3}$”
只能輸入由26個英文字母組成的字符串：“^[A-Za-z]+$”
只能輸入由26個大寫英文字母組成的字符串：“^[A-Z]+$”
只能輸入由26個小寫英文字母組成的字符串：“^[a-z]+$”
只能輸入由數字和26個英文字母組成的字符串：“^[A-Za-z0-9]+$”
只能輸入由數字、26個英文字母或者下划線組成的字符串：“^w+$”
驗證用戶密碼:“^[a-zA-Z]w{5,17}$”正確格式為：以字母開頭，長度在6-18之間，
只能包含字符、數字和下划線。
驗證是否含有^%&',;=?$"等字符：“[^%&',;=?$x22]+”
只能輸入漢字：“^[u4e00-u9fa5],{0,}$”
驗證Email地址：“^w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$”
驗證InternetURL：“^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?$”
驗證電話號碼：“^((d{3,4})|d{3,4}-)?d{7,8}$”
正確格式為：“XXXX-XXXXXXX”，“XXXX-XXXXXXXX”，“XXX-XXXXXXX”，
“XXX-XXXXXXXX”，“XXXXXXX”，“XXXXXXXX”。
驗證身份證號（15位或18位數字）：“^d{15}|d{}18$”
驗證一年的12個月：“^(0?[1-9]|1[0-2])$”正確格式為：“01”-“09”和“1”“12”
驗證一個月的31天：“^((0?[1-9])|((1|2)[0-9])|30|31)$”
正確格式為：“01”“09”和“1”“31”。
匹配中文字符的正則表達式： [u4e00-u9fa5]
匹配雙字節字符(包括漢字在內)：[^x00-xff]
匹配空行的正則表達式：n[s| ]*r
匹配HTML標記的正則表達式：/<(.*)>.*|<(.*) />/
匹配首尾空格的正則表達式：(^s*)|(s*$)
匹配Email地址的正則表達式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
匹配網址URL的正則表達式：http://([w-]+.)+[w-]+(/[w- ./?%&=]*)?
(1)應用：計算字符串的長度（一個雙字節字符長度計2，ASCII字符計1）
String.prototype.len=function(){return this.replace([^x00-xff]/g,"aa").length;}
(2)應用：javascript中沒有像vbscript那樣的trim函數，我們就可以利用這個表達式來實現
String.prototype.trim = function()
{
return this.replace(/(^s*)|(s*$)/g, "");
}
(3)應用：利用正則表達式分解和轉換IP地址
function IP2V(ip) //IP地址轉換成對應數值
{
re=/(d+).(d+).(d+).(d+)/g //匹配IP地址的正則表達式
if(re.test(ip))
{
return RegExp.$1*Math.pow(255,3))+RegExp.$2*Math.pow(255,2))+RegExp.$3*255+RegExp.$4*1
}
else
{
throw new Error("Not a valid IP address!")
}
}
(4)應用：從URL地址中提取文件名的javascript程序
s="http://www.juapk.com/forum.php";
s=s.replace(/(.*/){0,}([^.]+).*/ig,"$2") ;//Page1.htm
(5)應用：利用正則表達式限制網頁表單里的文本框輸入內容
用正則表達式限制只能輸入中文：onkeyup="value=value.replace(/[^u4E00-u9FA5]/g,') "onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^u4E00-u9FA5]/g,'))"
用正則表達式限制只能輸入全角字符：onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^uFF00-uFFFF]/g,'))"
用正則表達式限制只能輸入數字：onkeyup="value=value.replace(/[^d]/g,') "onbeforepaste= "clipboardData.setData('text',clipboardData.getData('text').replace(/[^d]/g,'))"
用正則表達式限制只能輸入數字和英文：onkeyup="value=value.replace(/[W]/g,') "onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^d]/g,'

簡單例子

public static void main(String[] args) { String patternStr = "\u300a.+\u300b"; Pattern pattern = Pattern.compile(patternStr); String input = "《21世紀》記者"; Matcher matcher = pattern.matcher(input); if (matcher.find()) { int start = matcher.start(); int end = matcher.end(); System.out.println(input.substring(start, end)); }else{ System.out.println("not found"); } //output: 《21世紀》 }

1.java驗證IP地址：

Pattern pattern = Pattern.compile(“\\b((?!\\d\\d\\d)\\d+|1\\d\\d|2[0-4]\\d|25[0-5])\\.((?!\\d\\d\\d)\\d+|1\\d\\d|2[0-4]\\d|25[0-5])\\.((?!\\d\\d\\d)\\d+|1\\d\\d|2[0-4]\\d|25[0-5])\\.((?!\\d\\d\\d)\\d+|1\\d\\d|2[0-4]\\d|25[0-5])\\b”);

Matcher matcher = pattern.matcher(“127.400.600.2″); //以驗證127.400.600.2為例

System.out.println(matcher.matches());

2. java驗證日期時間，解決潤月：

Pattern pattern = Pattern.compile(“^((\\d{2}(([02468][048])|([13579][26]))[\\-\\/\\s]?((((0?[13578])|(1[02]))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(3[01])))|(((0?[469])|(11))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(30)))|(0?2[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])))))|(\\d{2}(([02468][1235679])|([13579][01345789]))[\\-\\/\\s]?((((0?[13578])|(1[02]))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(3[01])))|(((0?[469])|(11))[\\-\\/\\s]?((0?[1-9])|([1-2][0-9])|(30)))|(0?2[\\-\\/\\s]?((0?[1-9])|(1[0-9])|(2[0-8]))))))(\\s(((0?[0-9])|([1-2][0-3]))\\:([0-5]?[0-9])((\\s)|(\\:([0-5]?[0-9])))))?$”);

Matcher matcher = pattern.matcher(“2000-02-29 23:59:59″);

System.out.println(matcher.matches());

3.java驗證郵箱格式：

Pattern pattern = Pattern.compile(“^([a-zA-Z0-9_\\-\\.]+)@((\\[[0-9]{1,3}\\.[0-9]{1,3}\\.[0-9]{1,3}\\.)|(([a-zA-Z0-9\\-]+\\.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(\\]?)$”);

Matcher matcher = pattern.matcher(“a@aa.com”);

System.out.println(matcher.matches());

正則表達式的貪婪模式

非貪婪模式是指盡可能少的查找滿足匹配的結果，一般情況下我們使用都是非貪婪模式。使用貪婪模式的話，需要加上(*?);這個就是貪婪模式的開始。比如下面的匹配：

String pattern = "<a>(.*)</a>"; 非貪婪

<a>hello<a>world</a>welcome</a>

String pattern = "<a>(.*？)</a>"; 貪婪

<a>hello<a> 和 </a>welcome</a>

另：http://www.cnblogs.com/zxin/archive/2013/01/26/2877765.html

http://blog.csdn.net/wp562846864/article/details/22913203

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 正則表達式匹配中文，英文字母和數字及_的寫法！同時控制長度正則表達式匹配中文，英文字母和數字及_的寫法！同時控制長度 JAVA正則表達式驗證英文字母、漢字和數字！！！小程序正則表達式 - 僅支持漢字、英文字母和數字判斷是否英文字母或數字的C#正則表達式由數字、26個英文字母、下划線或漢字的正則表達式史上最全的正則表達式-匹配中英文、字母和數字最全的正則表達式-匹配中英文、字母和數字史上最全的正則表達式-匹配中英文、字母和數字史上最全的正則表達式-匹配中英文、字母和數字