利用BeautifulSoup去除HTML指定標簽和去除注釋


去除指定標簽

from bs4 import BeautifulSoup
#去除屬性ul
[s.extract() for s in soup("ul")]
# 去除屬性svg
[s.extract() for s in soup("svg")]
# 去除屬性script
[s.extract() for s in soup("script")]

去除注釋

from bs4 import BeautifulSoup, Comment

 #去除注釋
comments = soup.findAll(text=lambda text: isinstance(text, Comment))
[comment.extract() for comment in comments]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM