Python使用xslt提取網頁數據

本文轉載自查看原文 2016-05-17 15:03 1996 網絡爬蟲/ python/ 編程語言

1，引言

在Python網絡爬蟲內容提取器一文我們詳細講解了核心部件：可插拔的內容提取器類gsExtractor。本文記錄了確定gsExtractor的技術路線過程中所做的編程實驗。這是第一部分，實驗了用xslt方式一次性提取靜態網頁內容並轉換成xml格式。

2，用lxml庫實現網頁內容提取

lxml是python的一個庫，可以迅速、靈活地處理 XML。它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT)，並且實現了常見的 ElementTree API。

這2天測試了在python中通過xslt來提取網頁內容，記錄如下：

2.1，抓取目標

假設要提取集搜客官網舊版論壇的帖子標題和回復數，如下圖，要把整個列表提取出來，存成xml格式

2.2，源代碼1：只抓當前頁，結果顯示在控制台

Python的優勢是用很少量代碼就能解決一個問題，請注意下面的代碼看起來很長，其實python函數調用沒有幾個，大篇幅被一個xslt腳本占去了，在這段代碼中，只是一個好長的字符串而已，至於為什么選擇xslt，而不是離散的xpath或者讓人撓頭的正則表達式，請參看《Python即時網絡爬蟲項目啟動說明》，我們期望通過這個架構，把程序員的時間節省下來一大半。

可以拷貝運行下面的代碼(在windows10， python3.2下測試通過)：

from urllib import request from lxml import etree url="http://www.sina.com/cn/forum/7" #由於博客園的限制，如果你要運行該段代碼的話請將‘sina’替換成‘gooseeker’ conn=request.urlopen(url) doc = etree.HTML(conn.read()) xslt_root = etree.XML("""\ <xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" > <xsl:template match="/"> <列表> <xsl:apply-templates select="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表"/> </列表> </xsl:template> <xsl:template match="table/tbody/tr[position()>=1]" mode="list"> <item> <標題> <xsl:value-of select="*//*[@class='topic']/a/text()"/> <xsl:value-of select="*[@class='topic']/a/text()"/> <xsl:if test="@class='topic'"> <xsl:value-of select="a/text()"/> </xsl:if> </標題> <回復數> <xsl:value-of select="*//*[@class='replies']/text()"/> <xsl:value-of select="*[@class='replies']/text()"/> <xsl:if test="@class='replies'"> <xsl:value-of select="text()"/> </xsl:if> </回復數> </item> </xsl:template> <xsl:template match="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表"> <item> <list> <xsl:apply-templates select="table/tbody/tr[position()>=1]" mode="list"/> </list> </item> </xsl:template> </xsl:stylesheet>""") transform = etree.XSLT(xslt_root) result_tree = transform(doc) print(result_tree)

源代碼請通過本文結尾的GitHub源下載。

2.3，抓取結果

得到的抓取結果如下圖：

2.4，源代碼2：翻頁抓取，結果存入文件

我們對2.2的代碼再做進一步修改，增加翻頁抓取和存結果文件功能，代碼如下：

from urllib import request from lxml import etree import time xslt_root = etree.XML("""\ <xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" > <xsl:template match="/"> <列表> <xsl:apply-templates select="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表"/> </列表> </xsl:template> <xsl:template match="table/tbody/tr[position()>=1]" mode="list"> <item> <標題> <xsl:value-of select="*//*[@class='topic']/a/text()"/> <xsl:value-of select="*[@class='topic']/a/text()"/> <xsl:if test="@class='topic'"> <xsl:value-of select="a/text()"/> </xsl:if> </標題> <回復數> <xsl:value-of select="*//*[@class='replies']/text()"/> <xsl:value-of select="*[@class='replies']/text()"/> <xsl:if test="@class='replies'"> <xsl:value-of select="text()"/> </xsl:if> </回復數> </item> </xsl:template> <xsl:template match="//*[@id='forum' and count(./table/tbody/tr[position()>=1 and count(.//*[@class='topic']/a/text())>0])>0]" mode="列表"> <item> <list> <xsl:apply-templates select="table/tbody/tr[position()>=1]" mode="list"/> </list> </item> </xsl:template> </xsl:stylesheet>""") baseurl="http://www.sina.com/cn/forum/7" #由於博客園的限制，如果你要運行該代碼的話，將'sina'替換成'gooseeker‘ basefilebegin="jsk_bbs_" basefileend=".xml" count=1
while (count < 12): url=baseurl + "?page=" + str(count) conn=request.urlopen(url) doc = etree.HTML(conn.read()) transform = etree.XSLT(xslt_root) result_tree = transform(doc) print(str(result_tree)) file_obj=open(basefilebegin+str(count)+basefileend,'w',encoding='UTF-8') file_obj.write(str(result_tree)) file_obj.close() count+=1 time.sleep(2)

我們增加了寫文件的代碼，還增加了一個循環，構造每個翻頁的網址，但是，如果翻頁過程中網址總是不變怎么辦？其實這就是動態網頁內容，下面會討論這個問題。

3，總結

這是開源Python通用爬蟲項目的驗證過程，在一個爬蟲框架里面，其它部分都容易做成通用的，就是網頁內容提取和轉換成結構化的操作難於通用，我們稱之為提取器。但是，借助GooSeeker可視化提取規則生成器MS謀數台，提取器的生成過程將變得很便捷，而且可以標准化插入，從而實現通用爬蟲，在后續的文章中會專門講解MS謀數台與Python配合的具體方法。

4，接下來閱讀

本文介紹的方法通常用來抓取靜態網頁內容，也就是所謂的html文檔中的內容，目前很多網站內容是用javascript動態生成的，一開始html是沒有這些內容的，通過后加載方式添加進來，那么就需要采用動態技術，請閱讀《Python爬蟲使用Selenium+PhantomJS抓取Ajax和動態HTML內容》

5，集搜客GooSeeker開源代碼下載源

1. GooSeeker開源Python網絡爬蟲GitHub源

6，文檔修改歷史

2016-05-26：V2.0，增補文字說明；把跟帖的代碼補充了進來
2016-05-29：V2.1，增加最后一章源代碼下載源

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python【BeautifulSoup解析和提取網頁數據】 JavaScript 提取網頁數據 python爬蟲-提取網頁數據的三種武器【Python爬蟲】用CSS 選擇器提取網頁數據 [PHP] xpath提取網頁數據內容 Python提取網頁數據后導出表格並且數據轉化為json 網絡爬蟲－使用Python抓取網頁數據用Python實現網頁數據抓取 python爬取網頁數據 python爬取網頁數據方法