js正則表達式之解析——URL的正則表達式


首先,此片文章並不是直接告訴你,url的正則表達式是什么,以及怎么使用這個正則表達式去解析一個URL地址,相信這種問題在網絡上已經能找到很多。本文的宗旨在於教你如何理解URL的正則表達式,以達到理解正則表達式,以及能夠在日后的工作中寫出相對簡單的正則。言歸正傳,先看看一下的例子:

var parse_url = /^(?:([A-Za-z]+):)?(\/{0,3})([0-9.\-A-Za-z]+)(?::(\d+))?(?:\/([^?#]*))?(?:\?([^#]*))?(?:#(.*))?$/;

 1 var parse_url = /^(?:([A-Za-z]+):)?(\/{0,3})([0-9.\-A-Za-z]+)(?::(\d+))?(?:\/([^?#]*))?(?:\?([^#]*))?(?:#(.*))?$/;
 2 var url = "http://qiji123.kerlai.net:81/GoodsBasic/Operate/12678?q#simen";
 3 var result = parse_url.exec(url);
 4 var names = ["url","scheme","slash","host","port","path","query","hash"];
 5 for(var i=0; i <names.length;i++){
 6     console.log(names[i]+":"+result[i]);
 7 }
 8 
 9 //輸出結果
10 /*
11 url:http://qiji123.kerlai.net:81/GoodsBasic/Operate/12678?q#simen
12 scheme:http
13 slash://
14 host:qiji123.kerlai.net
15 port:81
16 path:GoodsBasic/Operate/12678
17 query:q
18 hash:simen
19 */
View Code

我們先來看看結果:

url:http://qiji123.kerlai.net:81/GoodsBasic/Operate/12678?q#simen

scheme:http

slash://

host:qiji123.kerlai.net

port:81

path:GoodsBasic/Operate/12678

query:q

hash:simen

代碼中result數組的集合是['http://qiji123.kerlai.net:81/GoodsBasic/Operate/12678?q#simen','http', '//', 'qiji123.kerlai.net', '81', 'GoodsBasic/Operate/12678', 'q', 'simen']

現在我們嘗試把從第2個到最后一個的結果一個一個鏈接起來,得到的結果為:"http // qiji123.kerlai.net 81 GoodsBasic/Operate/12678 q simen" 和原來的url相比,缺少了":?#"等鏈接符。這個是為何?說到這,我們就要引出正則表達式的一個概念為正則表達式的分組。正則表達式有4種分組,分別是:捕獲型、飛捕獲型、向前正向匹配、向前負向匹配。此處我重點介紹前面兩種,后面兩種大家可以自行補腦。其中非捕獲型的就不會在結果的數組中出現,()括起來的為一個組,即會占用結果數組的一個位置。同樣如果在你的正則表達式中,沒有用括號括起來,那么所匹配到的字符將不會出現在exec()方法所返回的數組中。正則的分組是使用()括起來的稱為一個分組。

1、捕獲型分組:(...)

2、非捕獲型分組:(?: .....)

3、向前正向匹配:(?=........)

4、向前負向匹配:(?!.........)

接下來我們來分解parse_url這個正則表達式,第一個分組

1、^表示字符串的開始

整個正則因子是匹配一個協議名:http

2、(?: )表示一個非捕獲型分組:即在這個括號內的,但是不在其子括號內所匹配到的字符將不放入結果數組中。

3、()表示一個捕獲型分組,此括號內所匹配到的字符放入結果數組中對應url中的:http字符

4、[]為正則表達式類,表示符合中括號內任一一個字符。

7、A-Za-z表示字母A到字母Z,字母a到字母z。[A-Za-z]表示符合字母A到字母Z,字母a到字母z的任一一個字符

5、+表示匹配1次貨多次

6、?表示此組為可選匹配條件

第二個正則因子:(\/{0,3})://

捕獲型分組,\/表示一個應該被匹配的/,{0,3}表示\將被匹配0次或者1到3次之間

([0-9.\-A-Za-z]+):qiji123.kerlai.net

捕獲型分組,由一個或多個數字 ,“.”,”\-“(轉義成”-“),字母A到Z和字母a到z組成

(?::(\d+))?:81

前置:放在非捕獲型分組中將不會出現在返回數組中,\d表示匹配數字。整個因子就是匹配前置為:后面跟隨一個或多個數字。此分組因子為可選的

(?:\/([^?#]*))?:GoodsBasic/Operate/12678

該分組由/開始,^在此處表示非的意思,即除?#之外的所有字符 最后一個?表示此正則因子分組可選

(?:\?([^#]*))? :q

該分組表示包含0個或多個非#字符

(?:#(.*))?:simen

該分組以#開始,(.)將匹配除結束符以外的所有字符。

 $表示這個字符串結束。

到此就已經分析完url的所有分組。接下來大家可以寫寫電話號碼的正則表達式:既能匹配固定電話有能匹配手機號(這個會用到新的字符:|)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM