Python網頁解析：BeautifulSoup vs lxml.html

本文轉載自查看原文 2011-12-29 14:39 7984 python/ 網頁抓取

Python里常用的網頁解析庫有BeautifulSoup和lxml.html，其中前者可能更知名一點吧，熊貓開始也是使用的BeautifulSoup，但是發現它實在有幾個問題繞不過去，因此最后采用的還是lxml：

BeautifulSoup太慢。熊貓原來寫的程序是需要提取不定網頁里的正文，因此需要對網頁進行很多DOM解析工作，經過測試可以認定BS平均比lxml要慢10倍左右。原因應該是libxml2+libxslt的原生C代碼比python還是要更快吧
BS依賴python自帶的sgmllib，但是這個sgmllib至少有兩個問題。首先，它解析“class=我的CSS類”這樣的字符串會有問題，參考下面的代碼就知道了。
```
from BeautifulSoup import BeautifulSoup
html = u'<div class=我的CSS類>hello</div>'
print BeautifulSoup(html).find('div')['class']
```
打印出來的結果是長度為零的字符串，而不是“我的CSS類”。

不過這個問題可以通過外圍代碼來解決，只要改寫一下sgmllib的attrfind這個查找元素屬性的正則就行，可以改成
```
sgmllib.attrfind = re.compile(r'\s*([a-zA-Z_][-.:a-zA-Z_0-9]*)(\s*=\s*(\'[^\']*\'|"[^"]*"|[^\s^\'^\"^>]*))?')
```
這個問題可以說是網頁書寫不規范造成的，也不能怨sgmllib吧，但是這和BS原來希望能解析格式不好的HTML的宗旨是相違背的。

但是第二個問題就比較要命了，參看下面的示例代碼。
```
from BeautifulSoup import BeautifulSoup
html = u'<a onclick="if(x>10) alert(x);" href="javascript:void(0)">hello</a>'
print BeautifulSoup(html).find('a').attrs
```
打印出來的結果是：
```
[(u'onclick', u'if(x>10) alert(x);')]
```
顯然其中的href屬性被拋棄了，原因就是sgmllib庫在解析屬性的時候一旦遇到了>等特殊符號就會結束屬性的解析，要解決這個問題，只能修改sgmllib中SGMLParser的parse_starttag代碼，找到292行，即k = match.end(0)這一行，添加下面的代碼即可：
```
if k > j:
    match = endbracket.search(rawdata, k+1)
    if not match: return -1
    j = match.start(0)
```

因此對比起來lxml會好很多，也許在解析某些HTML的時候真的會出問題，但是就現在使用的情況來說還是挺好的。而且lxml的xpath感覺真的很棒，幾年前在折騰ASP.NET/Web Service的時候學習過XPath/XSLT之類的東西，但是實用其實挺少的，這次用lxml的xpath，能速度搞定一大堆較繁瑣的元素查找，簡直太爽了。例如要查找所有有name屬性和content屬性的meta元素：

dom.xpath('.//meta[@name][@content]')

下面是判斷元素x是否是元素y的祖節點的代碼：

x in y.xpath('ancestor-or-self::*')

此外，lxml里還支持string-length、count等XPath 1.0的函數(參見XPath and XSLT with lxml)。不過2.0的函數，如序列操作的函數就不行了，這需要底層libxml2和libxslt庫的升級才行。

當然，lxml也有它自己的問題，那就是多線程方面貌似有重入性問題，如果需要解析大量網頁，那只能啟動多個進程來試試了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 關於python的lxml.html 的fromstring 函數【Python】 html解析BeautifulSoup python中用lxml解析html python 使用 BeautifulSoup 解析html python爬蟲網頁解析之lxml模塊 python爬蟲之BeautifulSoup的HTML解析 python筆記1--lxml.etree解析html Python爬蟲 | lxml解析html頁面 python模塊--BeautifulSoup4 和 lxml 關於爬蟲中常見的兩個網頁解析工具的分析 —— lxml / xpath 與 bs4 / BeautifulSoup