# from HTMLParser import HTMLParser from html.parser import HTMLParser # 將字符串格式的html文本轉成html class MyHTMLParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.data = [] def handle_startendtag(self, tag, attrs): pass def handle_endtag(self, tag): pass def handle_data(self, data): if data.count('\n') == 0: self.data.append(data) if __name__ == '__main__': parser = MyHTMLParser() for i in conn(): # 獲取文章 content = i[0] parser.feed(content)
parser.data # 通過這個可以獲取去標簽后的內容列表
參考:https://www.cnblogs.com/AlwinXu/p/5492033.html