# from HTMLParser import HTMLParser
from html.parser import HTMLParser # 將字符串格式的html文本轉成html
class MyHTMLParser(HTMLParser):
def __init__(self):
HTMLParser.__init__(self)
self.data = []
def handle_startendtag(self, tag, attrs):
pass
def handle_endtag(self, tag):
pass
def handle_data(self, data):
if data.count('\n') == 0:
self.data.append(data)
if __name__ == '__main__':
parser = MyHTMLParser()
for i in conn(): # 獲取文章
content = i[0]
parser.feed(content)
parser.data # 通過這個可以獲取去標簽后的內容列表
參考:https://www.cnblogs.com/AlwinXu/p/5492033.html
