python_爬蟲_str類型的html文本去標簽


# from HTMLParser import HTMLParser
from html.parser import HTMLParser # 將字符串格式的html文本轉成html

class MyHTMLParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.data = []
    def handle_startendtag(self, tag, attrs):
        pass
    def handle_endtag(self, tag):
        pass
    def handle_data(self, data):
        if data.count('\n') == 0:
            self.data.append(data)

if __name__ == '__main__':
    parser = MyHTMLParser()
    for i in conn(): # 獲取文章
        content = i[0]
        parser.feed(content)
        parser.data # 通過這個可以獲取去標簽后的內容列表

參考:https://www.cnblogs.com/AlwinXu/p/5492033.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM