python利用正则表达式提取字符串

本文转载自查看原文 2017-02-24 14:47 3577 Python一大堆

前言

正则表达式的基础知识就不说了,有兴趣的可以点击这里，提取一般分两种情况，一种是提取在文本中提取单个位置的字符串，另一种是提取连续多个位置的字符串。日志分析会遇到这种情况，下面我会分别讲一下对应的方法。

一、单个位置的字符串提取

这种情况我们可以使用(.+?)这个正则表达式来提取。举例，一个字符串"a123b",如果我们想提取ab之间的值123，可以使用findall配合正则表达式，这样会返回一个包含所以符合情况的list。

代码如下：

 
         import 
         re 
        
 
         str 
         = 
         "a123b" 
        
 
         print 
         re.findall(r 
         "a(.+?)b" 
         , 
         str 
         ) 
         # 
        
 
         输出[ 
         '123' 
         ] 
        

1.1贪婪和非贪婪匹配

如果我们有一个字符串”a123b456b”，如果我们想匹配a和最后一个b之间的所有值而非a和第一个出现的b之间的值，可以用?来控制正则贪婪和非贪婪匹配的情况。

代码如下：

 
         import 
         re 
        
         str 
         = 
         "a123b456b" 
        
         print 
         re.findall(r 
         "a(.+?)b" 
         ,  
         str 
         ) 
        
         #输出['123']#?控制只匹配0或1个,所以只会输出和最近的b之间的匹配情况 
        
         print 
         re.findall(r 
         "a(.+)b" 
         ,  
         str 
         ) 
        
         #输出['123b456'] 
        
         print 
         re.findall(r 
         "a(.*)b" 
         ,  
         str 
         ) 
        
         #输出['123b456']

1.2多行匹配

如果你要多行匹配，那么需要加上re.S和re.M标志. 加上re.S后。将会匹配换行符，默认.不会匹配换行符。

代码如下：

 
         str 
         = 
         "a23b\na34b" 
        
         re.findall(r 
         "a(\d+)b.+a(\d+)b" 
         ,  
         str 
         ) 
        
         #输出[] 
        
         #因为不能处理str中间有\n换行的情况 
        
         re.findall(r 
         "a(\d+)b.+a(\d+)b" 
         ,  
         str 
         , re.S) 
        
         #s输出[('23', '34')]

加上re.M后,^$标志将会匹配每一行，默认^和$只会匹配第一行。

代码如下：

 
         str 
         = 
         "a23b\na34b" 
        
         re.findall(r 
         "^a(\d+)b" 
         ,  
         str 
         ) 
        
         #输出['23'] 
        
         re.findall(r 
         "^a(\d+)b" 
         ,  
         str 
         , re.M) 
        
         #输出['23', '34']

二、连续多个位置的字符串提取

这种情况我们可以使用(?P<name>…)这个正则表达式来提取。举例，如果我们有一行webserver的access日志:'192.168.0.1 25/Oct/2012:14:46:34 "GET /api HTTP/1.1" 200 44 "http://abc.com/search" "Mozilla/5.0"'，我们想提取这行日志里面所有的内容，可以写多个(?P<name>expr)来提取,其中name可以更改为你为该位置字符串命名的变量，expr改成提取位置的正则即可。

代码如下：

 
         import 
         re 
        
 
         line  
         = 
         ' 
         192.168 
         . 
         0.1 
         25 
         / 
         Oct 
         / 
         2012 
         : 
         14 
         : 
         46 
         : 
         34 
         "GET /api HTTP/1.1" 
         200 
         44 
         "http://abc.com/search" 
        
 
         "Mozilla/5.0" 
         ' 
        
 
         reg  
         = 
         re. 
         compile 
         ('^(?P<remote_ip>[^ ] 
         * 
         ) (?P<date>[^ ] 
         * 
         )  
         "(?P<request>[^" 
         ] 
         * 
         )"  
        
 
         (?P<status>[^ ] 
         * 
         ) (?P<size>[^ ] 
         * 
         )  
         "(?P<referrer>[^" 
         ] 
         * 
         ) 
         " " 
         (?P<user_agent>[^ 
         "]*)" 
         ') 
        
 
         regMatch  
         = 
         reg.match(line) 
        
 
         linebits  
         = 
         regMatch.groupdict() 
        
 
         print 
         linebits 
        
 
         for 
         k, v  
         in 
         linebits.items() : 
        
 
           
         print 
         k 
         + 
         ": " 
         + 
         v 
        

输出的结果为：

 
         status: 200 
        
         referrer:  
        
         request: GET /api HTTP/1.1 
        
         user_agent: Mozilla/5.0 
        
         date: 25/Oct/2012:14:46:34size: 44 
        
         remote_ip: 192.168.0.1

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 用python正则表达式提取字符串 C# 正则表达式,提取字符串通过正则表达式提取字符串信息 python_字符串&正则表达式 js使用正则表达式获取字符串中特定的字符 java 正则匹配空格字符串正则表达式截取字符串正则表达式获取字符串中的img标签中的url链接 RegEX正则表达式截取字符串用C#通过正则表达式截取字符串中符合条件的子字符串 js正则表达式截取字符串开头、结尾、以及两字符串之间的内容