python 去除html標記和script標記


網上找了很多文章,都去不掉script,應該是正則有問題。本人正則不行,最后還是使用beautifulsoup。
from bs4 import BeautifulSoup


#html是獲取的html源碼

soup = BeautifulSoup(html,"lxml")
[script.extract() for script in soup.findAll('script')]
[style.extract() for style in soup.findAll('style')]

print(soup.get_text())

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM