Scrapy爬蟲中的鏈接提取器LinkExtractor

本文轉載自查看原文 2018-07-31 22:46 952 Scrapy爬蟲/ Python

今天在編寫Scrapy爬蟲的時候接觸到了LinkExtractor，遂學習了一下這個鏈接提取器。

Link Extractors 是那些目的僅僅是從網頁(scrapy.http.Response 對象)中抽取最終將會被follow鏈接的對象｡使用場景就是在一個網站中通過自定義規則提取到自己想要的那些網址。

Scrapy默認提供2種可用的 Link Extractor, 但你通過實現一個簡單的接口創建自己定制的Link Extractor來滿足需求｡默認的LinkExtractor（也就是LxmlLinkExtractor）擁有比較方便的過濾選項，使用LXML的強大的HTMLParser實現。

使用的時候先從scrapy.linkextractors模塊中引入：

from scrapy.linkextractors import LinkExtractor

LxmlLinkExtractor的使用：

class scrapy.contrib.linkextractors.lxmlhtml.LxmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), deny_extensions=None, restrict_xpaths=(), tags=('a', 'area'), attrs=('href', ), canonicalize=True, unique=True, process_value=None)

相關參數的含義請參考文檔：http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/link-extractors.html

主要參數：

allow: #滿足括號中正則表達式的值會被提取，如果為空則全部匹配
allow_domains: #會被提取的鏈接的域名

與之相關的CrawlSpider以及Rule之后應該會一起整合寫一個博客。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 scrapy中使用LinkExtractor提取鏈接 scrapy爬蟲提取網頁鏈接的兩種方法以及構造HtmlResponse對象的方式 Scrapy 入門：爬蟲類詳解（Parse()函數、選擇器、提取數據）在Scrapy中如何利用Xpath選擇器從HTML中提取目標信息（兩種方式） Scrapy中response屬性以及內容提取 #0 scrapy爬蟲學習中遇到的坑記錄 scrapy爬蟲第三百三十三節，web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄—獲取Scrapy框架Cookies 三十 Python分布式爬蟲打造搜索引擎Scrapy精講—將selenium操作谷歌瀏覽器集成到scrapy中使用Scrapyd部署Scrapy爬蟲到遠程服務器上