貪婪模式也就是我們使用 .* 匹配任意字符時會盡可能長地向后匹配,如果我們想阻止這種貪婪模式,需要加個問號,盡可能少地匹配,如下例子:
In [1]: import re In [2]: html = '<h1> hello world </h1>' In [3]: re.findall(r'<.*>', html) # 貪婪模式默認匹配到所有內容 Out[3]: ['<h1> hello world </h1>'] In [4]: re.findall(r'<.*?>', html) # 我們只想匹配兩個標簽的內容,可以加上問號來阻止貪婪模式 Out[4]: ['<h1>', '</h1>']
