python正則提取txt文本

本文轉載自查看原文 2020-08-01 08:24 1441 python

首先，我們的文本可能有兩種格式

1.沒有特殊符號的單一村文本，比如這一份先知的標題與對應的url

2.第二種是有規律的，比如ip，賬號密碼，也是我們滲透里經常遇到的，

對於提取這2中文本的關鍵內容，這就需要用我們的正則了

第一種用如下代碼

# -*- coding: utf-8 -*
import re
f = open("dg.txt", "r", encoding='utf-8')     
data = f.readlines()                            
f.close()                                       
for line in data:
    pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+')
    string = str(line)
    url = re.findall(pattern,string)
    f1 = open("url.txt", "a+", encoding='utf-8')
    for urls in url:
        f1.write(urls+'\n')
    f1.close()

這是提取url，我們唯一需要改變的就是第七行的正則即可，這是效果

對於第二種，我們用如下代碼

# -*- coding: utf-8 -* 
import re
f = open("p.txt", "r", encoding='utf-8')     
data = f.readlines()                            
f.close()                                       
for line in data:
    f1 = open("city.txt", "a+", encoding='utf-8')
    x = line.split("----")
    f1.write(x[4])
    f1.write("\n")
    print(x[4])
f1.close()

這是效果

我們只需將特殊符號作為正則的標志，即可提取。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python 正則提取HTml標簽文本內容的（轉）提取TXT文本中指定內容——python Java從Txt文本進行數據提取 python 提取文本關鍵詞所在行（txt，csv）二、文本提取——正則表達式 python讀取、寫入txt文本 python利用正則表達式提取文本中特定內容 python re 正則提取中文 python 正則提取（re模塊） python 正則提取中文,漢字