ECMAScript 3 開始支持正則表達式,其語法和 Perl 語法很類似,一個完整的正則表達式結構如下:
var expression = / pattern / flags ;
其中,模式(pattern)部分可以是任何簡單或復雜的正則表達式,可以包含字符類、限定符、分組、向前查找以及反向引用。
每個正則表達式都可帶有一或多個標志(flags),用以標明正則表達式的行為,正則表達式支持下列 3 個標志:
g: 表示全局(global)模式,即模式將被應用於所有字符串,而非在發現第一個匹配項時立即停止;
i : 表示不區分大小寫(case-insensitive)模式,即在確定匹配項時忽略模式與字符串的大小寫;
m:表示多行(multiline)模式,即在到達一行文本末尾時還會繼續查找下一行中是否存在與模式匹配的項。
如果多個標志同時使用時,則寫成:gmi 。
正則表達式的創建有兩種方式: new RegExp(expression) 和 直接字面量。
// 使用直接字面量創建
var exp1 = /(^\s+)|(\s+$)/g;
// 使用RegExp對象創建
var exp2 = new RegExp('(^\\s+)|(\\s+$)', 'g');
exp1 和 exp2 是兩個完全等價的正則表達式,需要注意的是,傳遞給 RegExp 構造函數的兩個參數都是字符串,不能把正則表達式字面量傳遞給 RegExp 構造函數。
與其他語言中的正則表達式類似,模式中使用的所有元字符都必須轉義。正則表達式中的元字符包括:
( [ { \ ^ $ | ) ? * + .] }
這些元字符在正則表達式中都有一或多種特殊用途,因此如果想要匹配字符串中包含的這些字符,就必須對它們進行轉義。
// 匹配 .docx var exp = /\.docx/gi ;
由於 RegExp 構造函數的模式參數是字符串,所以在某些情況下要對字符進行雙重轉義。所有元字符都必須雙重轉義,那些已經轉義過的字符也是如此。
// 對 \. 再次轉義
var exp = new RegExp('\\.docx', 'gi');
//匹配 \n
var exp1 = /\\n/g; //對\n中的\轉義
var exp2 = new RegExp('\\\\n', 'g'); // 對 \\n 再次轉義
() [] {} 的區別
() 的作用是提取匹配的字符串。表達式中有幾個()就會得到幾個相應的匹配字符串。比如 (\s+) 表示連續空格的字符串。
[] 是定義匹配的字符范圍。比如 [a-zA-Z0-9] 表示字符文本要匹配英文字符和數字。
{} 一般用來表示匹配的長度,比如 \d{3} 表示匹配三個數字,\d{1,3} 表示匹配1~3個數字,\d{3,} 表示匹配3個以上數字。
^ 與 $
^ 匹配一個字符串的開頭,比如 (^a) 就是匹配以字母a開頭的字符串
$ 匹配一個字符串的結尾,比如 (b$) 就是匹配以字母b結尾的字符串
^ 還有另個一個作用就是取反,比如[^xyz] 表示匹配的字符串不包含xyz
注意問題:
如果 ^ 出現在[ ] 中一般表示取反,而出現在其他地方則是匹配字符串的開頭。
^ 和 $ 配合可以有效匹配完整字符串:
/d+/.test('4xpt'); // true - 部分匹配成功
/^\d+$/.test('4xpt'); // false - 完整匹配失敗
\d \s \w .
\d 匹配一個非負整數, 等價於 [0-9]
\s 匹配一個空白字符
\w 匹配一個英文字母或數字,等價於[0-9a-zA-Z]
. 匹配除換行符以外的任意字符,等價於[^\n]
* + ?
* 表示匹配前面元素0次或多次,比如 (\s*) 就是匹配0個或多個空格
+ 表示匹配前面元素1次或多次,比如 (\d+) 就是匹配由至少1個整數組成的字符串
? 表示匹配前面元素0次或1次,相當於{0,1} ,比如(\w?) 就是匹配最多由1個字母或數字組成的字符串
$1 與 \1
$1-$9 存放着正則表達式中最近的9個正則表達式的提取的結果,這些結果按照子匹配的出現順序依次排列。基本語法是:RegExp.$n ,這些屬性是靜態的,除了replace中的第二個參數可以省略 RegExp 之外,其他地方使用都要加上 RegExp 。
//使用RegExp訪問
/(\d+)-(\d+)-(\d+)/.test('2016-03-26')
RegExp.$1 // 2016
RegExp.$2 // 03
RegExp.$3 // 26
//在replace中使用
'2016-03-26'.replace(/(\d+)-(\d+)-(\d+)/, '$1年$2月$3日')
// 2016年03月26日
\1 表示后向引用,是指在正則表達式中,從左往右數,第1個()中的內容,以此類推,\2表示第2個(),\0表示整個表達式。
//匹配日期格式,表達式中的\1代表重復(\-|\/|.)
var rgx = /\d{4}(\-|\/|.)\d{1,2}\1\d{1,2}/
rgx.test('2016-03-26') // true
rgx.test('2016-03.26') // false
兩者的區別是:\n 只能用在表達式中,而 $n 只能用在表達式之外的地方。
test 與 match
前面的大都是JS正則表達式的語法,而test則是用來檢測字符串是否匹配某一個正則表達式,如果匹配就會返回true,反之則返回false
/\d+/.test('123') ; // true
/\d+/.test('abc') ; // false
match是獲取正則匹配到的結果,以數組的形式返回
'186a619b28'.match(/\d+/g); // ['186', '619', '28']
replace
replace 本身是JavaScript字符串對象的一個方法,它允許接收兩個參數:
replace([RegExp|String], [String|Function])
參數1:可以是一個普通的字符串或是一個正則表達式
參數2:可以是一個普通的字符串或是一個回調函數
如果第1個參數是 RegExp,JS會先提取RegExp匹配出的結果,然后用第2個參數逐一替換匹配出的結果
如果第2個參數是回調函數,每匹配到一個結果就回調一次,每次回調都會傳遞以下參數:
result: 本次匹配到的結果
$1,...$9: 正則表達式中有幾個(),就會傳遞幾個參數,$1~$9分別代表本次匹配中每個()提取的結果,最多9個
offset: 記錄本次匹配的開始位置
source: 接受匹配的原始字符串
經典案例
【1】實現字符串的 trim 函數,去除字符串兩邊的空格。
String.prototype.trim = function () {
// 方式一:將匹配到的每一個結果都用''替換
return this.replace(/(^\s+)|(\s+$)/g, function(){
return '';
});
// 方式二:和方式一的原理相同
return this.replace(/(^\s+)|(\s+$)/g, '');
};
^\s+ 表示以空格開頭的連續空白字符,\s+$ 表示以空格結尾的連續空白字符,加上() 就是將匹配到的結果提取出來,由於是 | 的關系,因此這個表達式最多會match到兩個結果集,然后執行兩次替換:
String.prototype.trim = function () {
/**
* @param rs:匹配結果
* @param $1:第1個()提取結果
* @param $2:第2個()提取結果
* @param offset:匹配開始位置
* @param source:原始字符串
*/
this.replace(/(^\s+)|(\s+$)/g, function(rs, $1, $2, offset, source){
// arguments中的每個元素對應一個參數
console.log(arguments);
});
};
' abcd '.trim();
輸出結果:
[' ', ' ', undefined, 0, ' abcd '] // 第1次匹配結果
[' ', undefined, ' ', 5, ' abcd '] // 第2次匹配結果
【2】提取瀏覽器 url 中的參數名和參數值,生成一個key/value 的對象。
function getUrlParamObj(){
var obj = {};
//獲取url的參數部分
var params = window.location.search.substr(1);
//[^&=]+ 表示不含&或=的連續字符,加上()就是提取對應字符串
params.replace(/([^&=]+)=([^&=]*)/gi, function(rs, $1, $2){
obj[$1] = decodeURIComponent($2);
});
return obj;
}
/([^&=]+)=([^&=]*)/gi 每次匹配到的都是一個完整key/value,形如 xxxx=xxx, 每當匹配到一個這樣的結果時就執行回調,並傳遞匹配到的 key 和 value,對應到$1和$2 。
【3】擴展 typeof,包含引用類型的具體類型。
function getDataType(obj){
let rst = Object.prototype.toString.call(obj);
rst = rst.replace(/\[object\s(\w+)\]/,'$1'); // [object Xxx]
return rst.toLowerCase()
}
getDataType(1); // number
getDataType('a'); // string
getDataType(null); // null
getDataType([]); // array
$1 是正則表達式中第一個() 中匹配的內容。
注意問題:
replace 的第二個參數只能是字符串或函數,這里的 $1 需要放在引號中。
【4】在字符串指定位置插入新字符串。
String.prototype.insetAt = function(str, offset){
offset = offset + 1;
//使用RegExp()構造函數創建正則表達式
var regx = new RegExp("(^.{"+offset+"})");
return this.replace(regx, '$1' + str);
};
'abcd'.insetAt('xyz',2); // 在c字符后插入xyz
> 'abcxyzd'
當 offset=2 時,正則表達式為:(^.{3}) .表示除\n之外的任意字符,{3} 表示匹配前三個連續字符,加()就會將匹配到的結果提取出來,然后通過replace將匹配到的結果替換為新的字符串,形如:結果=結果+str
【5】將手機號 12988886666 轉化成 129****6666 。
function telFormat(tel){
tel = String(tel);
// 方式一
return tel.replace(/(\d{3})(\d{4})(\d{4})/, function (rs, $1, $2, $3) {
return $1 + '****' + $3
});
// 方式二
return tel.replace(/(\d{3})(\d{4})(\d{4})/, '$1****$3');
}
(\d{3}\d{4}\d{4}) 可以匹配完整的手機號,並分別提取前 3 位、4-7 位和 8-11位,"$1****$3" 是將第 2 個匹配結果用****代替並組成新的字符串,然后替換完整的手機號。
【6】實現HTML編碼,將< / > " & ` 等字符進行轉義,避免 XSS 攻擊 。
function htmlEncode(str) {
//匹配< / > " & `
return str.replace(/[<>"&\/`]/g, function(rs) {
switch (rs) {
case "<":
return "<";
case ">":
return ">";
case "&":
return "&";
case "\"":
return """;
case "/":
return "/"
case "`":
return "'"
}
});
}
原創發布 @一像素 2016.02
