使用python進行URL編碼，爬蟲時解決參數亂碼的問題

本文轉載自查看原文 2020-04-27 16:42 641 爬蟲

原創曾記否？最后發布於2018-09-10 19:40:54 閱讀數 9955 收藏
展開
為什么要對URL進行encode
在寫網絡爬蟲時，發現提交表單中的中文字符都變成了TextBox1=%B8%C5%C2%CA%C2%DB這種樣子，觀察這是中文對應的GB2312編碼，實際上是進行了GB2312編碼和urlencode。

那么為什么要對URL進行encode？

因為在標准的url規范中中文和很多的字符是不允許出現在url中的。為了字符編碼（gbk、utf-8）和特殊字符不出現在url中，url轉義是為了符合url的規范。

具體代碼
urlencode編碼：urllib中的quote方法

import urllib.parse
chinese_str = '中文'
# 先進行gb2312編碼
chinese_str = chinese_str.encode('gb2312')
# 輸出 b'\xd6\xd0\xce\xc4'
# 再進行urlencode編碼
chinese_str_url = urllib.parse.quote(chinese_str)
# 輸出 %D6%D0%CE%C4
1
2
3
4
5
6
7
8
urldecode解碼：urllib中的unquote方法

# 由於編碼問題會報錯，還未解決
urllib.parse.unquote('%D6%D0%CE%C4')
# ：的url編碼為%3A，可輸出 http://www.baidu.com
urllib.parse.unquote('http%3A//www.baidu.com')
1
2
3
4
其它應用
URL中%u開頭的字符

在網頁的表單參數中，還遇到過%u開頭的字符，得知是中文對應的Unicode編碼值

以下代碼可以實現字符與unicode編碼值的轉換

str = '姓名'
# 獲得urlencode編碼
str = str.encode('unicode_escape')
print(str)
# 輸出 b'\\u59d3\\u540d'
str=str.decode('utf-8')
print(str)
# 輸出 \u59d3\u540d
str=str.encode('utf-8')
print(str)
# 輸出 b'\\u59d3\\u540d'
str=str.decode('unicode_escape')
print(str)
# 輸出姓名
1
2
3
4
5
6
7
8
9
10
11
12
13
14
hidden隱藏域對象作為表單參數

在爬取ASP.NET平台的網站信息時，有VIEWSTATE、EVENTVALIDATION這樣的hidden隱藏域對象，作為表單參數發送post請求，所以需要從網頁源代碼中獲取。

但post請求中的參數值是URL編碼值，而網頁源碼中獲取到的是URL解碼值，所以需要進行urlencode編碼。

相關代碼

# 網頁源碼上得到之后，需要urlencode編碼
hid['VIEWSTATE'] = urllib.parse.quote(soup.find(id="__VIEWSTATE")['value'])
1
2
相關工具
谷歌瀏覽器的開發者工具中可以查看參數的urlencode和decode值

在線URL編碼/解碼工具

可選擇編碼格式為UTF-8或GB2312

漢字字符集編碼查詢

可查漢字的GB2312等中文編碼和Unicode編碼
————————————————
版權聲明：本文為CSDN博主「曾記否？」的原創文章，遵循 CC 4.0 BY-SA 版權協議，轉載請附上原文出處鏈接及本聲明。
原文鏈接：https://blog.csdn.net/qq_38607035/java/article/details/82594822

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python解決url的請求參數中中文是亂碼（%..%..）的問題將參數進行URL編碼 lash as2/as3 向后台傳參數url編碼 urlencode（解決中文傳參亂碼問題）解決JS在url中傳遞參數時參數包含中文亂碼的問題解決JS在url中傳遞參數時參數包含中文亂碼的問題 [轉]URL漢字編碼問題（及亂碼解決） javaweb請求編碼 url編碼響應編碼亂碼問題 post編碼 get請求編碼中文亂碼問題 GET POST參數亂碼問題 url亂碼問題 get post請求亂碼字符編碼解決pycharm的爬蟲亂碼問題（初步了解各種編碼格式） python爬蟲解決gbk亂碼問題徹底解決Python3寫爬蟲或網站時的亂碼問題