首先,此片文章並不是直接告訴你,url的正則表達式是什么,以及怎么使用這個正則表達式去解析一個URL地址,相信這種問題在網絡上已經能找到很多。本文的宗旨在於教你如何理解URL的正則表達式,以達到理解正則表達式,以及能夠在日后的工作中寫出相對簡單的正則。言歸正傳,先看看一下的例子:
var parse_url = /^(?:([A-Za-z]+):)?(\/{0,3})([0-9.\-A-Za-z]+)(?::(\d+))?(?:\/([^?#]*))?(?:\?([^#]*))?(?:#(.*))?$/;

1 var parse_url = /^(?:([A-Za-z]+):)?(\/{0,3})([0-9.\-A-Za-z]+)(?::(\d+))?(?:\/([^?#]*))?(?:\?([^#]*))?(?:#(.*))?$/; 2 var url = "http://qiji123.kerlai.net:81/GoodsBasic/Operate/12678?q#simen"; 3 var result = parse_url.exec(url); 4 var names = ["url","scheme","slash","host","port","path","query","hash"]; 5 for(var i=0; i <names.length;i++){ 6 console.log(names[i]+":"+result[i]); 7 } 8 9 //輸出結果 10 /* 11 url:http://qiji123.kerlai.net:81/GoodsBasic/Operate/12678?q#simen 12 scheme:http 13 slash:// 14 host:qiji123.kerlai.net 15 port:81 16 path:GoodsBasic/Operate/12678 17 query:q 18 hash:simen 19 */
我們先來看看結果:
url:http://qiji123.kerlai.net:81/GoodsBasic/Operate/12678?q#simen
scheme:http
slash://
host:qiji123.kerlai.net
port:81
path:GoodsBasic/Operate/12678
query:q
hash:simen
代碼中result數組的集合是['http://qiji123.kerlai.net:81/GoodsBasic/Operate/12678?q#simen','http', '//', 'qiji123.kerlai.net', '81', 'GoodsBasic/Operate/12678', 'q', 'simen']
現在我們嘗試把從第2個到最后一個的結果一個一個鏈接起來,得到的結果為:"http // qiji123.kerlai.net 81 GoodsBasic/Operate/12678 q simen" 和原來的url相比,缺少了":?#"等鏈接符。這個是為何?說到這,我們就要引出正則表達式的一個概念為正則表達式的分組。正則表達式有4種分組,分別是:捕獲型、飛捕獲型、向前正向匹配、向前負向匹配。此處我重點介紹前面兩種,后面兩種大家可以自行補腦。其中非捕獲型的就不會在結果的數組中出現,()括起來的為一個組,即會占用結果數組的一個位置。同樣如果在你的正則表達式中,沒有用括號括起來,那么所匹配到的字符將不會出現在exec()方法所返回的數組中。正則的分組是使用()括起來的稱為一個分組。
1、捕獲型分組:(...)
2、非捕獲型分組:(?: .....)
3、向前正向匹配:(?=........)
4、向前負向匹配:(?!.........)
接下來我們來分解parse_url這個正則表達式,第一個分組
1、^表示字符串的開始
整個正則因子是匹配一個協議名:http
2、(?: )表示一個非捕獲型分組:即在這個括號內的,但是不在其子括號內所匹配到的字符將不放入結果數組中。
3、()表示一個捕獲型分組,此括號內所匹配到的字符放入結果數組中對應url中的:http字符
4、[]為正則表達式類,表示符合中括號內任一一個字符。
7、A-Za-z表示字母A到字母Z,字母a到字母z。[A-Za-z]表示符合字母A到字母Z,字母a到字母z的任一一個字符
5、+表示匹配1次貨多次
6、?表示此組為可選匹配條件
第二個正則因子:(\/{0,3})://
捕獲型分組,\/表示一個應該被匹配的/,{0,3}表示\將被匹配0次或者1到3次之間
([0-9.\-A-Za-z]+):qiji123.kerlai.net
捕獲型分組,由一個或多個數字 ,“.”,”\-“(轉義成”-“),字母A到Z和字母a到z組成
(?::(\d+))?:81
前置:放在非捕獲型分組中將不會出現在返回數組中,\d表示匹配數字。整個因子就是匹配前置為:后面跟隨一個或多個數字。此分組因子為可選的
(?:\/([^?#]*))?:GoodsBasic/Operate/12678
該分組由/開始,^在此處表示非的意思,即除?#之外的所有字符 最后一個?表示此正則因子分組可選
(?:\?([^#]*))? :q
該分組表示包含0個或多個非#字符
(?:#(.*))?:simen
該分組以#開始,(.)將匹配除結束符以外的所有字符。
$表示這個字符串結束。
到此就已經分析完url的所有分組。接下來大家可以寫寫電話號碼的正則表達式:既能匹配固定電話有能匹配手機號(這個會用到新的字符:|)