java匹配中文漢字的正則表達式

本文轉載自查看原文 2014-03-11 09:00 53005

正則表達式匹配中文先要了解中文的編碼

代碼如下復制代碼
[u4E00-u9FA5]漢字?[uFE30-uFFA0]全角字符

[u4E00-u9FA5]漢字?[uFE30-uFFA0]全角字符

匹配中文字符的正則表達式： [u4e00-u9fa5]
匹配雙字節字符(包括漢字在內)：[^x00-xff]

應用：計算字符串的長度（一個雙字節字符長度計2，ASCII字符計1）

代碼如下復制代碼
String.prototype.len=function(){return this.replace([^x00-xff]/g,"aa").length;}

匹配空行的正則表達式：n[s| ]*r

匹配HTML標記的正則表達式：/<(.*)>.*</1>|<(.*) />/

匹配首尾空格的正則表達式：(^s*)|(s*$)

知道它了我們就好解決了

代碼如下復制代碼
public static void regxChinese(){
       // 要匹配的字符串
       String source = "<span title='5 星級酒店' class='dx dx5'>";
       // 將上面要匹配的字符串轉換成小寫
      // source = source.toLowerCase();
       // www.111cn.net 匹配的字符串的正則表達式
       String reg_charset = "<span[^>]*?title='([0-9]*[\s|\S]*[u4E00-u9FA5]*)'[\s|\S]

*class='[a-z]*[\s|\S]*[a-z]*[0-9]*'";

       Pattern p = Pattern.compile(reg_charset);
       Matcher m = p.matcher(source);
       while (m.find()) {
        System.out.println(m.group(1));
       }
}
public static void regxChinese(){
        // 要匹配的字符串
        String source = "<span title='5 星級酒店' class='dx dx5'>";
        // 將上面要匹配的字符串轉換成小寫
       // source = source.toLowerCase();
        // 匹配的字符串的正則表達式
        String reg_charset = "<span[^>]*?title='([0-9]*[\s|\S]*[u4E00-u9FA5]*)'[\s|\S]

Java的正則表達式是可以匹配中文字符的,同時,用中文字符來寫表達式也是可以的

代碼如下復制代碼
String reg_charset = "<span[^>]*?title='([0-9]*[\s|\S]*星級酒店)'[\s|\S]*class='[a-z]*[\s|\S]

*[a-z]*[0-9]*'";

String reg_charset = "<span[^>]*?title='([0-9]*[\s|\S]*星級酒店)'[\s|\S]*class='[a-z]*

[\s|\S]*[a-z]*[0-9]*'";

一些常用的正則匹配規則

匹配中文字符的正則表達式： [u4e00-u9fa5]
　　評注：匹配中文還真是個頭疼的事，有了這個表達式就好辦了
　　匹配雙字節字符(包括漢字在內)：[^x00-xff]
　　評注：可以用來計算字符串的長度（一個雙字節字符長度計2，ASCII字符計1）
　　匹配空白行的正則表達式：ns*r
　　評注：可以用來刪除空白行
　　匹配HTML標記的正則表達式：<(S*?)[^>]*>.*?|<.*? />
　　評注：網上流傳的版本太糟糕，上面這個也僅僅能匹配部分，對於復雜的嵌套標記依舊無能為力
　　匹配首尾空白字符的正則表達式：^s*|s*$
　　評注：可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等)，非常有用的表達式
　　匹配Email地址的正則表達式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
　　評注：表單驗證時很實用
　　匹配網址URL的正則表達式：[a-zA-z]+://[^s]*
　　評注：網上流傳的版本功能很有限，上面這個基本可以滿足需求
　　匹配帳號是否合法(字母開頭，允許5-16字節，允許字母數字下划線)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
　　評注：表單驗證時很實用
　　匹配國內電話號碼：d{3}-d{8}|d{4}-d{7}
　　評注：匹配形式如 0511-4405222 或 021-87888822
　　匹配騰訊QQ號：[1-9][0-9]{4,}
　　評注：騰訊QQ號從10000開始
　　匹配中國郵政編碼：[1-9]d{5}(?!d)
　　評注：中國郵政編碼為6位數字
　　匹配身份證：d{15}|d{18}
　　評注：中國的身份證為15位或18位
　　匹配ip地址：d+.d+.d+.d+
　　評注：提取ip地址時有用

更多詳細內容請查看：http://www.111cn.net/jsp/Java/46105.htm

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Android 正則表達式匹配漢字中文正則表達式之匹配中文漢字的正則表達式介紹正則表達式的漢字匹配正則表達式的漢字匹配 java匹配中文的正則表達式 java之endwith()方法以及正則表達式匹配中文正則表達式中文匹配中文正則表達式匹配-正則中文匹配中文正則表達式匹配-正則中文匹配 C# 正則表達式匹配漢字