python 去除html标记和script标记


网上找了很多文章,都去不掉script,应该是正则有问题。本人正则不行,最后还是使用beautifulsoup。
from bs4 import BeautifulSoup


#html是获取的html源码

soup = BeautifulSoup(html,"lxml")
[script.extract() for script in soup.findAll('script')]
[style.extract() for style in soup.findAll('style')]

print(soup.get_text())

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM