首先,我們的文本可能有兩種格式
1.沒有特殊符號的單一村文本,比如這一份先知的標題與對應的url
2.第二種是有規律的,比如ip,賬號密碼,也是我們滲透里經常遇到的,
對於提取這2中文本的關鍵內容,這就需要用我們的正則了
第一種用如下代碼
# -*- coding: utf-8 -* import re f = open("dg.txt", "r", encoding='utf-8') data = f.readlines() f.close() for line in data: pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+') string = str(line) url = re.findall(pattern,string) f1 = open("url.txt", "a+", encoding='utf-8') for urls in url: f1.write(urls+'\n') f1.close()
這是提取url,我們唯一需要改變的就是第七行的正則即可,這是效果
對於第二種,我們用如下代碼
# -*- coding: utf-8 -* import re f = open("p.txt", "r", encoding='utf-8') data = f.readlines() f.close() for line in data: f1 = open("city.txt", "a+", encoding='utf-8') x = line.split("----") f1.write(x[4]) f1.write("\n") print(x[4]) f1.close()
這是效果
我們只需將特殊符號作為正則的標志,即可提取。