python去除html标签的几种方法

本文转载自查看原文 2019-01-17 22:49 7156

import re
from bs4 import BeautifulSoup
from lxml import etree

html = '<p>你好</p><br/><font>哈哈</font><b>大家好</b>'

# 法一
pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)
 
# 法二
soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())

# 法三
response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath('string(.)'))


# 你好哈哈大家好
# 你好哈哈大家好
# 你好哈哈大家好

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Python:使用正则去除HTML标签(转) [转]html里a标签中href调用js的几种方法 a标签调用js的几种方法 shell中去除变量去除所有空格或者去除变量首尾空格的常用几种方法 Android 去除list集合中重复项的几种方法去除list集合中重复项的几种方法 js数组中去除重复值的几种方法 jquery 插入html的几种方法 html静态页面传值的几种方法 html文件引入其它html文件的几种方法：include方式