https://es6.ruanyifeng.com/?search=%E5%B8%83%E5%B0%94&x=0&y=0#docs/regex
轉自阮一峰 ES6
1、RegExp 構造函數
ES5中,RegExp
構造函數的參數有兩種情況。
第一種情況是,參數是字符串,這時第二個參數表示正則表達式的修飾符(flag)
var regex = new RegExp('xyz', 'i'); // 等價於 var regex = /xyz/i;
第二種情況是,參數是一個正則表示式,這時會返回一個原有正則表達式的拷貝。
var regex = new RegExp(/xyz/i);
但是,ES5 不允許此時使用第二個參數添加修飾符,否則會報錯。
var regex = new RegExp(/xyz/, 'i');
//這樣會報錯!!1!
ES6 改變了這種行為。如果RegExp
構造函數第一個參數是一個正則對象,那么可以使用第二個參數指定修飾符。而且,返回的正則表達式會忽略原有的正則表達式的修飾符,只使用新指定的修飾符。
new RegExp(/abc/ig, 'i').flags //上面代碼中,原有正則對象的修飾符是ig,它會被第二個參數i覆蓋。
2、字符串的正則方法
字符串對象共有 4 個方法,可以使用正則表達式:match()
、replace()
、search()
和split()
。
3、u 修飾符
ES6 對正則表達式添加了u
修飾符,含義為“Unicode 模式”,用來正確處理大於\uFFFF
的 Unicode 字符。也就是說,會正確處理四個字節的 UTF-16 編碼。
/^\uD83D/u.test('\uD83D\uDC2A') // false /^\uD83D/.test('\uD83D\uDC2A') // true
上面代碼中,\uD83D\uDC2A
是一個四個字節的 UTF-16 編碼,代表一個字符。但是,ES5 不支持四個字節的 UTF-16 編碼,會將其識別為兩個字符,導致第二行代碼結果為true
。加了u
修飾符以后,ES6 就會識別其為一個字符,所以第一行代碼結果為false
一旦加上u
修飾符號,就會修改下面這些正則表達式的行為。
(1)點字符
點(.
)字符在正則表達式中,含義是除了換行符以外的任意單個字符。對於碼點大於0xFFFF
的 Unicode 字符,點字符不能識別,必須加上u
修飾符
var s = '𠮷'; /^.$/.test(s) // false /^.$/u.test(s) // true
上面代碼表示,如果不添加u
修飾符,正則表達式就會認為字符串為兩個字符,從而匹配失敗。
(2)Unicode 字符表示法
ES6 新增了使用大括號表示 Unicode 字符,這種表示法在正則表達式中必須加上u
修飾符,才能識別當中的大括號,否則會被解讀為量詞。
/\u{61}/.test('a') // false /\u{61}/u.test('a') // true /\u{20BB7}/u.test('𠮷') // true
上面代碼表示,如果不加u
修飾符,正則表達式無法識別\u{61}
這種表示法,只會認為這匹配 61 個連續的u
。
Unicode中 \u{61}等於字符a,正則{61}表示量詞 和。* 一樣
(4)預定義模式
u
修飾符也影響到預定義模式,能否正確識別碼點大於0xFFFF
的 Unicode 字符。
/^\S$/.test('𠮷') // false /^\S$/u.test('𠮷') // true
上面代碼的\S
是預定義模式,匹配所有非空白字符。只有加了u
修飾符,它才能正確匹配碼點大於0xFFFF
的 Unicode 字符。
利用這一點,可以寫出一個正確返回字符串長度的函數