python_爬蟲_str類型的html文本去標簽

本文轉載自查看原文 2018-09-05 17:20 1323 Python_爬蟲

# from HTMLParser import HTMLParser
from html.parser import HTMLParser # 將字符串格式的html文本轉成html

class MyHTMLParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.data = []
    def handle_startendtag(self, tag, attrs):
        pass
    def handle_endtag(self, tag):
        pass
    def handle_data(self, data):
        if data.count('\n') == 0:
            self.data.append(data)

if __name__ == '__main__':
    parser = MyHTMLParser()
    for i in conn(): # 獲取文章
        content = i[0]
        parser.feed(content)

        parser.data # 通過這個可以獲取去標簽后的內容列表

參考：https://www.cnblogs.com/AlwinXu/p/5492033.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python 正則提取HTml標簽文本內容的 Python_報錯：TypeError: write() argument must be str, not int python_爬蟲_multiprocessing.dummy以及multiprocessing 數據爬蟲：使用python爬取HTML標簽 python之str基礎類型 python中的bytes和str類型 Python中int類型轉str類型 html常用文本標簽 HTML容器標簽和文本標簽 python_爬蟲_爬取京東商品信息