python模塊之HTMLParser之穆雪峰的案例(理解其用法原理)

本文轉載自查看原文 2015-11-21 15:36 2938 python/ python網絡編程

# -*- coding: utf-8 -*-
#python 27
#xiaodeng
#python模塊之HTMLParser之穆雪峰的案例(理解其用法原理)
#http://www.cnblogs.com/xiaowuyi/archive/2012/10/15/2721658.html



#常見做法：首先，我們需要定義一個新的HTMLParser類，以覆蓋handle_starttag()方法，我們將使用這個方法來顯示所有標簽的HRef屬性值。
from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):

    
    def handle_starttag(self, tag, attrs):
        #print('<開始標簽:%s>' % tag)
        #print '---------some img--------'
        if tag=='img':
            #print attrs#[('src', 'python-logo.png'), ('alt', 'The Python logo')]
            for k ,v in attrs:
                print k,v
        else:
            pass
    def handle_endtag(self, tag):
        print('<結束標簽：/%s>' % tag)

    def handle_startendtag(self, tag, attrs):
        print('<%s/>' % tag)

    def handle_data(self, data):
        print 'data:',data

    def handle_comment(self, data):
        print '<!-- -->',data
        
    def handle_decl(self, decl):
        print '文檔類型聲明:',decl
    '''
    def handle_entityref(self, name):#處理一些特殊字符，以&開頭的
        print('&%s;' % name)

    def handle_charref(self, name):#處理特殊字符串，就是以&#開頭的，一般是內碼表示的字符
        print('&#%s;' % name)
    '''
parser = MyHTMLParser()
content=''''<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
<html>
    <head>
    </head>
        <body>
            <p>Some
                <a href=\"#\">html</a> tutorial...<br>END
                <!-- i am Notes Content-->
                <img src="python-logo.png" alt="The Python logo">
            </p>
        </body>
</html>
'''
import urllib
html=urllib.urlopen('http://www.163.com').read()
#parser.feed(html)
parser.feed(content)
parser.close()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python HTML解析模塊HTMLParser(爬蟲工具) python模塊學習---HTMLParser(解析HTML文檔元素) 使用 Python 模塊—— HTMLParser 解析 HTML 文檔元素 Python openpyxl模塊原理及用法解析 Python HTML操作（HTMLParser） Python HTML操作（HTMLParser）廖雪峰Python筆記廖雪峰 ---- Python教程 python之HTMLParser解析HTML文檔 Python—解析HTML頁面（HTMLParser）