Python3 parse.urlencode() 與parse.unquote()

本文轉載自查看原文 2018-05-14 11:19 971 python3+Scrapy爬蟲框架/ Python3 parse.urlencode() 與parse.unquote()

URL編碼與解碼

一．parse.urlencode() 與parse.unquote()

urllib 和urllib.request都是接受URL請求的相關模塊，但是提供了不同的功能。兩個最顯著的不同如下：

1.urllib 僅可以接受URL，不能創建設置了headers 的Request 類實例；

2.但是 urllib 提供 urlencode 方法用來GET查詢字符串的產生，而urllib.request 則沒有。（這是 urllib 和urllib.request 經常一起使用的主要原因）

3.編碼工作使用urllib的parse.urlencode()函數，幫我們將key:value這樣的鍵值對轉換成"key=value"這樣的字符串，解碼工作可以使用urllib的parse.unquote()函數。（注意，不是urllib.request.urlencode() )

例子一

#導入parse模塊

from urllib import parse

import urllib.request

url = 'https://www.baidu.com/s?'

#定義一個字典

wd ={"wd":"傳智播客"}

# urlencode() 接受的參數是一個字典

pw=parse.urlencode(wd)

print(pw)

wd1 ={"wd1":"傳"}

pw1=parse.urlencode(wd1)

print(pw1)

wd2={"wd2":"智"}

pw2=parse.urlencode(wd2)

print(pw2)

wd3={"wd3":"播"}

pw3=parse.urlencode(wd3)

print(pw3)

wd4={"wd4":"客"}

pw4=parse.urlencode(wd4)

print(pw4)

# 通過parse.unquote()方法進行解碼，把 URL編碼字符串，轉換回原先字符串。

print(parse.unquote("wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2"))

運行的結果：

wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2

wd1=%E4%BC%A0

wd2=%E6%99%BA

wd3=%E6%92%AD

wd4=%E5%AE%A2

wd=傳智播客

二．URL編碼與解碼工具

http://tool.chinaz.com/Tools/urlencode.aspx

URL編碼與解碼

三．一般HTTP請求提交數據，需要編碼成 URL編碼格式，然后做為url的一部分，或者作為參數傳到Request對象中。

Get方式

urllib庫與urllib.request庫的結合應用

例子一：貼吧小爬蟲案例

from urllib import parse

import urllib.request

url ='https://www.baidu.com/s'

header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"

}

keyword = input("請輸入需要查詢的字符串：")

wd={"wd":keyword }

wd=parse.urlencode(wd)

#拼接完整的URL

fullurl =url+"?"+wd

print(fullurl)

# url 作為Request()方法的參數，構造並返回一個Request對象

request = urllib.request.Request(fullurl,headers=header)

# Request對象作為urlopen()方法的參數，發送給服務器並接收響應

response = urllib.request.urlopen(request)

html = response.read()

print(html)

運行結果：

例子二：批量爬取貼吧頁面數據

第一步：先觀察貼吧各頁之間的規律

第一頁：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0

第二頁： http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50

第三頁： http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100

從中得出分頁之間的規律：pn = (page - 1) * 50

步驟分析：

簡單寫一個小爬蟲程序，來爬取百度貼吧的所有網頁。

先寫一個main，提示用戶輸入要爬取的貼吧名，並用parse.urlencode()進行轉碼，然后組合url，假設是lol吧，那么組合后的url就是：http://tieba.baidu.com/f?kw=lol

# 模擬 main 函數

if __name__ == "__main__":

kw = input("請輸入需要爬取的貼吧:")

# 輸入起始頁和終止頁，str轉成int類型

beginPage = int(input("請輸入起始頁："))

endPage = int(input("請輸入終止頁："))

url = "http://tieba.baidu.com/f?"

key = parse.urlencode({"kw" : kw})

# 組合后的url示例：http://tieba.baidu.com/f?kw=lol

url = url + key

print(url)

tiebaSpider(url, beginPage, endPage)

接下來，我們寫一個百度貼吧爬蟲接口，我們需要傳遞3個參數給這個接口， 一個是main里組合的url地址，以及起始頁碼和終止頁碼，表示要爬取頁碼的范圍。

def tiebaSpider(url, beginPage, endPage):

"""

作用：負責處理url，分配每個url去發送請求

url：需要處理的第一個url

beginPage: 爬蟲執行的起始頁面

endPage: 爬蟲執行的截止頁面

"""

for page in range(beginPage, endPage + 1):

pn = (page - 1) * 50

filename = "第" + str(page) + "頁.html"

# 組合為完整的 url，並且pn值每次增加50

fullurl = url + "&pn=" + str(pn)

print(fullurl)

print(filename)

#print fullurl

# 調用loadPage()發送請求獲取HTML頁面

html = loadPage(fullurl, filename)

# 將獲取到的HTML頁面寫入本地磁盤文件

writeFile(html, filename)

寫一個爬取網頁的函數loadPage

def loadPage(url, filename):

'''

作用：根據url發送請求，獲取服務器響應文件

url：需要爬取的url地址

filename: 處理的文件名

'''

print("正在下載" + filename)

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"

}

request = urllib.request.Request(url, headers = headers)

response = urllib.request.urlopen(request)

return response.read()

最后如果我們希望將爬取到了每頁的信息存儲在本地磁盤上，我們可以簡單寫一個存儲文件的接口。

def writeFile(html, filename):

"""

作用：保存服務器響應文件到本地磁盤文件里

html: 服務器響應文件

filename: 本地磁盤文件名

"""

print "正在存儲" + filename

with open(filename, 'w') as f:

f.write(html)

print "-" * 20

完整的程序實現：

__author__ = 'Administrator'

# date: 2018/5/13

from urllib import parse

import urllib.request

def loadPage(url, filename):

'''

作用：根據url發送請求，獲取服務器響應文件

url：需要爬取的url地址

filename: 處理的文件名

'''

print("正在下載" + filename)

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"

}

request = urllib.request.Request(url, headers = headers)

response = urllib.request.urlopen(request)

return response.read()

def writeFile(html, filename):

"""

作用：保存服務器響應文件到本地磁盤文件里

html: 服務器響應文件

filename: 本地磁盤文件名

"""

print("正在存儲" + filename)

with open(filename, 'w') as f:

f.write(html)

print("-" * 20)

def tiebaSpider(url, beginPage, endPage):

"""

作用：負責處理url，分配每個url去發送請求

url：需要處理的第一個url

beginPage: 爬蟲執行的起始頁面

endPage: 爬蟲執行的截止頁面

"""

for page in range(beginPage, endPage + 1):

pn = (page - 1) * 50

filename = "第" + str(page) + "頁.html"

# 組合為完整的 url，並且pn值每次增加50

fullurl = url + "&pn=" + str(pn)

print(fullurl)

print(filename)

#print fullurl

# 調用loadPage()發送請求獲取HTML頁面

html = loadPage(fullurl, filename)

# 將獲取到的HTML頁面寫入本地磁盤文件

writeFile(html, filename)

# 模擬 main 函數

if __name__ == "__main__":

kw = input("請輸入需要爬取的貼吧:")

# 輸入起始頁和終止頁，str轉成int類型

beginPage = int(input("請輸入起始頁："))

endPage = int(input("請輸入終止頁："))

url = "http://tieba.baidu.com/f?"

key = parse.urlencode({"kw" : kw})

# 組合后的url示例：http://tieba.baidu.com/f?kw=lol

url = url + key

print(url)

tiebaSpider(url, beginPage, endPage)

-------------------------------

個人今日頭條賬號：聽海8 （上面上傳了很多相關學習的視頻以及我書里的文章，大家想看視頻，可以關注我的今日頭條）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python3的urllib.parse常用函數小結(urlencode,quote,quote_plus,unquote,unquote_plus等) python學習之urllib.parse.unquote() Python3下urllib.parse.urlencode()編碼 Python3 parse模塊 urllib.parse.urlencode Python接口測試之urllib.parse.urlencode python3 urllib.parse 常用函數 python中urlencode、quote、unquote的用法 Python把json格式的string對象轉變成dict對象操作、Python3不能使用urllib2、urllib.parse.urlencode(params).encode(encoding='UTF8') Python3標准庫：urllib.parse分解URL