使用python的re模块匹配文本里固定字符串并取出字符串后的数字

本文转载自查看原文 2020-07-19 05:55 2015

这次遇到的问题是，我将数据（data）存在5个不同的文件夹下，这五个文件夹又在同一个文件夹下。

我想要可以给一个文件夹的输入，就可以便利此文件夹下的每一个文件夹里的data文件，并取出data中固定字符串后的一串数字。

data里内容看起来是这样：

error of kalman is 0.5546175255599425
error of sma is 0.5615765774353265
error of median is 0.5704280901194125
error of kalman + sma is 0.5435610429446063

需要要取出最后一行的error of kalman + sma is后的数字，则需要用到re库：

下面代码的第八行就是正则表达式，其中：

(?<=error of kalman \+ sma is)的意思是如果error of kalman + sma is出现在字符串前面才做匹配，称作正向后视断言。
其中加号前面需要加\，否则加号会被认为是正则表达式运算符。

\s*\d*\.\d*这句中\s是空格，\d是十进制数字，\.就是小数点。因为没有办法一次把这个小数取出来，所以需要把这个数分为三部分取。
*代表对它前面的正则式匹配0到任意次重复， 尽量多的匹配字符串。

 1 import os
 2 import re
 3 #coding:utf8
 4 
 5 dir_path='C:/Users/你的用户名/OneDrive/文档/thesis/plots/localization_result'
 6 
 7 dirs= os.listdir(dir_path)
 8 p = re.compile(r'(?<=error of kalman \+ sma is)\s*\d*\.\d*')
 9 
10 out = []
11 for dir in dirs:
12     file_dir = dir_path + '/' + dir + '/data'
13     with open(file_dir, encoding='utf-8') as file:
14         for line in file.readlines():
15             s = p.findall(line)
16             if s:
17                 out.append(eval(s[0]))
18 print(dirs)
19 print(out)

最后的结果是

['0252', '0514', '124', '133', '235']
[0.4874211675211633, 0.41016961492770837, 0.5435610429446063, 0.5860694118921476, 0.7477642384332055]

参考：https://docs.python.org/zh-cn/3/library/re.html

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 在SQL中取出字符串中数字部分或在SQL中取出字符部分在SQL中取出字符串中数字部分或在SQL中取出字符部分（转） JavaScript取出字符串中括号里的内容 Python re 模块中，如何使用反斜杠 "\"分割字符串？ Python用re正则化模块在字符串查找特定字符串 python反向输出字符串 python中re模块下的sub方法替换字符串匹配值为函数找出字符串中所有能被3整除的数字 python 正则表达式 re findall 返回能匹配的字符串 Python 从字符串中取出日期