from:https://www.cnblogs.com/ospider/p/5911339.html
最近要做下微信爬蟲,之前寫個小東西都是直接用正則提取數據就算了,如果需要更穩定的提取數據,還是使用 xpath 定位元素比較可靠。周末沒事,從爬蟲的角度研究了一下 python xml 相關的庫。
Python 標准庫中自帶了 xml 模塊,但是性能不夠好,而且缺乏一些人性化的 API,相比之下,第三方庫 lxml 是用 Cython 實現的,而且增加了很多實用的功能,可謂爬蟲處理網頁數據的一件利器。lxml 大部分功能都存在 lxml.etree
中,所以下文都假定已經執行了
from lxml import etree
解析 XML 字符串
網頁下載下來以后是個字符串的形式,使用etree.fromstring(str)
構造一個 etree._ElementTree
對象,使用 etree.tostring(t)
返回一個字符串
>>> xml_string = '<root><foo id="foo-id" class="foo zoo">Foo</foo><bar>中文</bar><baz></baz></root>' >>> root = etree.fromstring(xml_string.encode('utf-8')) # 最好傳 byte string >>> etree.tostring(root) # 默認返回的是 byte string b'<root>root content<foo id="foo-id" class="foo zoo">Foo</foo><bar>Bar</bar><baz/></root>' >>> print(etree.tostring(root, pretty_print=True).decode('utf-8')) #decode 一下變成 unicode <root> <foo id="foo-id" class="foo zoo">Foo</foo> <bar>Bar</bar> <baz/> # 注意這里沒有子節點的 baz 節點被變成了自閉和的標簽 </root> >>> type(root) <class 'lxml.etree._Element'> # 可以看出 tostring 返回的是一個_Element類型的對象,也就是整個 xml 樹的根節點
Element結構
etree._Element
是一個設計很精妙的結構,可以把他當做一個對象訪問當前節點自身的文本節點,可以把他當做一個數組,元素就是他的子節點,可以把它當做一個字典,從而遍歷他的屬性
>>> root.text 'root content' # 注意只是 root 自身的文本,並不包含子節點的文本 >>> root.tag 'root' >>> root[0].tag 'foo' >>> foo = root[0] >>> for attr, val in foo.items(): ... print(attr, val) ... id foo-id class foo zoo >>> foo.get('id') 'foo-id' >>> foo.attrib {'class': 'foo zoo', 'id': 'foo-id'}
Element 和 ElementTree
xml 是一個樹形結構,lxml 使用etree._Element
和 etree._ElementTree
來分別代表樹中的節點和樹,etree.ELement
和 etree.ElementTree
分別是兩個工廠函數
>>> t = root.getroottree() # 獲得一個節點對應的樹 <lxml.etree._ElementTree object at 0x107295308> >>> t.getroot() == root # 使用getroot 返回一個樹的根節點 True >>> foo_tree = etree.ElementTree(root) # 也可以從一個節點構造一個樹,那么這個節點就是這棵樹的根 >>> foo_tree.getroot().tag 'foo' >>> foo.getroottree().tag 'root' #注意,foo 這個節點的 roottree 仍然是以 root 節點為根的
其他方法如getparent()/getprevious()/getnext()
都是顯而易見的,不贅述了
XPath
XPath 實在太強大了,在定位元素方面絕對是秒殺 CSS 選擇器。在 lxml 中,_Element
和 _ElementTree
分別具有xpath 函數,兩者的區別在於:
如果是相對路徑,_Element.xpath
是以當前節點為參考的,_ElementTree.xpath
以根為參考
如果是絕對路徑,_ElementTree.xpath
是以當前節點的getroottree
的根節點為參考的
還有,如果 xpaht 表達式應該返回元素的話,總是返回一個數組,即使只有一個元素
>>> foo.xpath('/root')[0].tag 'root' >>> foo.xpath('.')[0].tag 'foo' >>> >>> t.xpath('/root')[0].tag 'root' >>> t.xpath('.')[0].tag 'root' >>>
lxml 還支持幾個函數 find/findall
,他們使用 ElementPath,是一種類似 xpath 的語言,感覺很是奇怪,lxml 的文檔描述他是 xpath 的一個子集,暫時不看了。
HTML
最后再來討論一下 HTML,以上的討論都是基於 xml 的,HTML 和 xml 還是有些許不同的,lxml 也有一個專門的 html 模塊。
比如我們解析 html 的話最好使用html.fromstring()
,返回的是lxml.html.HtmlElement
,具有上述的所有能力,同時能夠更好地兼容 html。
>>> etree.fromstring('<meta charset=utf-8 />') # 比如這句就會報錯,因為屬性值沒有用引號括起來 Traceback (most recent call last): File "<stdin>", line 1, in <module> File "src/lxml/lxml.etree.pyx", line 3213, in lxml.etree.fromstring (src/lxml/lxml.etree.c:77737) File "src/lxml/parser.pxi", line 1830, in lxml.etree._parseMemoryDocument (src/lxml/lxml.etree.c:116674) File "src/lxml/parser.pxi", line 1711, in lxml.etree._parseDoc (src/lxml/lxml.etree.c:115220) File "src/lxml/parser.pxi", line 1051, in lxml.etree._BaseParser._parseUnicodeDoc (src/lxml/lxml.etree.c:109345) File "src/lxml/parser.pxi", line 584, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:103584) File "src/lxml/parser.pxi", line 694, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:105238) File "src/lxml/parser.pxi", line 624, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:104147) lxml.etree.XMLSyntaxError: AttValue: " or ' expected, line 1, column 15 >>> html.fromstring('<meta charset=utf-8>') # 沒有問題
html.HtmlElement
同時多了幾項功能
>>> doc = html.fromstring('<div><p>lorem <span>poium</span></p></div>') >>> doc.text_content() 'lorem poium'