python 去除html標記和script標記

本文轉載自查看原文 2019-02-27 14:31 750 python

網上找了很多文章，都去不掉script,應該是正則有問題。本人正則不行，最后還是使用beautifulsoup。

from bs4 import BeautifulSoup


#html是獲取的html源碼

soup = BeautifulSoup(html,"lxml")
[script.extract() for script in soup.findAll('script')]
[style.extract() for style in soup.findAll('style')]

print(soup.get_text())

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 jquery妙招去除html標記 HTML基本標記 ASP.NET 去除所有HTML標記的方法什么是“HTML”？HTML的“標記”是什么？電話被標記廣告推銷什么去除？ HTML表格的基本結構標記 html中的基本標記常用的HTML標記 HTML常用標記 HTML與標記屬性