scrapy中使用LinkExtractor提取鏈接

本文轉載自查看原文 2019-10-19 10:25 624 scrapy

le = LinkExtractor(restrict_css='ul.pager li.next')

links = le.extract_links(response)

使用LinkExtractor的過程：

導入LinkExtractor，它是在scrapy中linkextractors中
創建一個Linkextractor對象，使用一個或者多個構造器參數描述提取規則，這里傳遞給restrict_css參數一個CSS選擇器表達式。它描述了下一頁鏈接所在的區域（在li.next下）
調用LinkExtractor對象的extract_links方法傳入一個response對象，這個方法一句創建對象的時候描述的的提取規則，在這個response對象的頁面中提取鏈接，最終返回一個列表，其中的每一個元素都是個link對象，也就是提取到的鏈接
由於頁面中的下一頁鏈接只有一個，因此用links[0]獲取link對象，link對象的url屬性就是鏈接頁面的絕對url地址（無須在調用response.urljoin方法），用它構造request對象並再次提交

描述提取規則

　　特殊情況：

　　　　LinkExtractors構造器的所有的參數都是有默認值的，如果構造對象的時候不傳入任何參數，就會自動提取頁面中的所有的鏈接

　　LinkExtractor構造器的各個參數：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Scrapy爬蟲中的鏈接提取器LinkExtractor python爬蟲scrapy的LinkExtractor 在Scrapy中使用Selenium 關於在scrapy中使用xpath scrapy中使用代理 scrapy爬蟲筆記(1)：提取首頁圖片下載鏈接 scrapy中使用 IP 代理 C#中使用正則表達式提取超鏈接地址的集中方法 C#中使用正則表達式提取超鏈接地址的集中方法使用 xpath helper 提取網頁鏈接