爬蟲——response中獲取的不帶主域名的url的拼接

本文轉載自查看原文 2017-11-02 11:01 3461 scrapy爬蟲

scrapy中response提取的沒有主域名的url拼接

# 1.導入urllib的parse

# 2.調用parse.urljoin()進行拼接，例子中response.url會自動提取出當前頁面url的主域名，get_url是從response中的元素中提取的沒有主域名的url

from urllib import parse

url = parse.urljoin(response.url, get_url)

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 在java中獲取URL的域名或IP與端口在java中獲取URL的域名或IP與端口 Python爬蟲：帶參url的拼接 php 獲取域名等Url PHP中獲取當前頁面的完整URL、PHP URL處理、獲取不帶擴展名的文件名 js中如何獲取頁面的Url，域名和端口號 Java獲取URL中的頂級域名domain的工具類爬蟲實戰【2】Python博客園-獲取某個博主所有文章的URL列表從url中獲得域名替換url中的域名