爬虫——response中获取的不带主域名的url的拼接

本文转载自查看原文 2017-11-02 11:01 3461 scrapy爬虫

scrapy中response提取的没有主域名的url拼接

# 1.导入urllib的parse

# 2.调用parse.urljoin()进行拼接，例子中response.url会自动提取出当前页面url的主域名，get_url是从response中的元素中提取的没有主域名的url

from urllib import parse

url = parse.urljoin(response.url, get_url)

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 在java中获取URL的域名或IP与端口在java中获取URL的域名或IP与端口 Python爬虫：带参url的拼接 php 获取域名等Url PHP中获取当前页面的完整URL、PHP URL处理、获取不带扩展名的文件名 js中如何获取页面的Url，域名和端口号 Java获取URL中的顶级域名domain的工具类爬虫实战【2】Python博客园-获取某个博主所有文章的URL列表从url中获得域名替换url中的域名