轉:
正則表達式在爬蟲中的應用,可以更好的取自己想要的數據,有些時候也可以應對那些反爬取的網站。
后邊多一個?表示懶惰模式。 必須跟在*或者+后邊用 如:<img src="test.jpg" width="60px" height="80px"/> 如果用正則匹配src中內容非懶惰模式匹配 src=".*" 匹配結果是:src="test.jpg" width="60px" height="80px" 意思是從="往后匹配,直到最后一個"匹配結束 懶惰模式正則: src=".*?" 結果:src="test.jpg" 因為匹配到第一個"就結束了一次匹配。不會繼續向后匹配。因為他懶惰嘛。 .表示除\n之外的任意字符 *表示匹配0-無窮+表示匹配1-無窮