python中用xpath和xml.dom解析html


  本次推薦的組合為xml.dom.minidom和xpath。其中xml.dom.minidom為python的標准庫,無須安裝。xpath為Google出品的開源項目py-dom-xpath

  安裝py-dom-xpath:

  1. https://py-dom-xpath.googlecode.com/files/py-dom-xpath-0.1.tar.gz下載壓縮包,解壓。
  2. CD到py-dom-xpath-0.1目錄
  3. 執行命令:C:\python27\python setup.py install
  4. 命令執行完成后,此目錄多了兩個文件夾,分別為build和dist,將/build/lib/文件夾下的xpath目錄拷貝至C:\Python27\Lib目錄,即安裝完成。

  測試用html文件,simple.html,內容如下:

  

 1 <!DOCTYPE html>
 2 <html>
 3 <head>
 4 <title>This is a simple html file</title>
 5 <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
 6 </head>
 7 <body>
 8 <div>
 9     <div>a</div>
10     <div>b</div>
11     <div>c</div>
12 </div>
13 </body>
14 </html>

 

  python文件:

  

1 import xpath
2 import xml.dom.minidom
3 
4 xml = xml.dom.minidom.parse('d:\\GitHub\\python27\\simple.html')
5 doc = xml.documentElement
6 result = xpath.find('//div',doc)[0].toxml()
7 print(result)

 

  值得注意的一個問題是,simple.html的第一行,即文檔頭<!DOCTYPE html>中的‘DOCTYPE’必須大寫,否則xml.dom.minidom會解析失敗。下一篇文章,將介紹另一個解析html的庫,不存在此問題。

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM