python 正則表達式 re findall 返回能匹配的字符串

本文轉載自查看原文 2017-10-08 15:08 17180

python 正則表達式 re findall 方法能夠以列表的形式返回能匹配的子串。

re.findall(pattern, string[, flags]):

搜索string，以列表形式返回全部能匹配的子串。先看個簡單的代碼：

import re

p = re.compile(r'\d+')
print p.findall('one1two2three3four4')

### output ###
# ['1', '2', '3', '4']

稍微復雜點比如:
info = '<a href="http://www.baidu.com">baidu</a>' 我們的需求是通過正則表達式提取網址和錨文本，那可以用到
findall()

import re
relink = '<a href="(.*)">(.*)</a>'
info = '<a href="http://www.baidu.com">baidu</a>'
cinfo = re.findall(relink,info)
print cinfo

輸出的結果：[('http://www.baidu.com', 'baidu')] 返回的是一個列表，列表里面是匹配的結果形成的元組形式。如果你需要用正則替換的話，可以看下python re sub

以下是一個網站地圖爬蟲，其中用到了re.findall 語法

import urllib2
import re
def download(url,user_agent='wswp', num_retries=2):
    print 'downloading:',url
    headers={'User-agent':user_agent}
    request=urllib2.Request(url,headers=headers)
    try:
         html=urllib2.urlopen(url).read()
    except urllib2.URLError as e:
        print 'download error:', e.reason
        html=None
        if num_retries>0:
            if hasattr(e, 'code') and  500<=e.code<600:
                #recursively retry 5XX http errors
                return download(url, user_agent,num_retries-1)
    return html

def crawl_sitemap(url):
    #download the sitemap file
    sitemap=download(url)
    #extract the sitemap links
    links = re.findall('<loc>(.*?)</loc>',sitemap)
    #download each link
    for link in links:
        html=download(link)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 正則表達式、原始字符串及re Python 正則表達式re模塊之findall()詳解 python之正則表達式 re.findall 用法 [Python正則表達式] 字符串中xml標簽的匹配 Python 正則表達式匹配兩個指定字符串中間的內容 Python字符串及正則表達式正則表達式 re.findall 用法 python正則表達式re.match()匹配多個字符方法的實現 Python從文件中讀取字符串，用正則表達式匹配中文字符的問題 python re 正則表達式