python正則提取txt文本


首先,我們的文本可能有兩種格式

1.沒有特殊符號的單一村文本,比如這一份先知的標題與對應的url

2.第二種是有規律的,比如ip,賬號密碼,也是我們滲透里經常遇到的,

 

對於提取這2中文本的關鍵內容,這就需要用我們的正則了

第一種用如下代碼

# -*- coding: utf-8 -*
import re
f = open("dg.txt", "r", encoding='utf-8')     
data = f.readlines()                            
f.close()                                       
for line in data:
    pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+')
    string = str(line)
    url = re.findall(pattern,string)
    f1 = open("url.txt", "a+", encoding='utf-8')
    for urls in url:
        f1.write(urls+'\n')
    f1.close()

這是提取url,我們唯一需要改變的就是第七行的正則即可,這是效果

 

對於第二種,我們用如下代碼

# -*- coding: utf-8 -* 
import re
f = open("p.txt", "r", encoding='utf-8')     
data = f.readlines()                            
f.close()                                       
for line in data:
    f1 = open("city.txt", "a+", encoding='utf-8')
    x = line.split("----")
    f1.write(x[4])
    f1.write("\n")
    print(x[4])
f1.close()

這是效果

我們只需將特殊符號作為正則的標志,即可提取。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM