url編碼與解碼

本文轉載自查看原文 2013-12-10 20:29 2915 Python

為何要將URL地址進行編碼然后發送到服務器端？

協議規范：RFC 1738，定義了，url地址中，不能包含，除了，0-9的數字，大小寫字母（a-zA-Z），短橫線’-’之外的字母，但是我們的URL中不止這些字符還有一些特殊字符比如$-_.+!*’(),這時候就需要我們進行編碼傳輸。編碼很簡單，就是將其值變為%xx而已，而xx就是該字符的16進制值而已。下面的表取自百度百科，大家可以參考一下。

backspace %08	I %49	v %76	ó %D3
tab %09	J %4A	w %77	Ô %D4
linefeed %0A	K %4B	x %78	Õ %D5
creturn %0D	L %4C	y %79	Ö %D6
space %20	M %4D	z %7A	Ø %D8
! %21	N %4E	{ %7B	ù %D9
" %22	O %4F	\| %7C	ú　 %DA
# %23	P %50	} %7D	Û %DB
$ %24	Q %51	~ %7E	ü %DC
% %25	R %52	￠ %A2	Y %DD
& %26	S %53	￡ %A3	T %DE
' %27	T %54	￥ %A5	ß %DF
( %28	U %55	\| %A6	à %E0
) %29	V %56	§ %A7	á %E1
* %2A	W %57	« %AB	a %E2
+ %2B	X %58	¬ %AC	ã %E3
, %2C	Y %59	ˉ %AD	ä %E4
- %2D	Z %5A	o %B0	å %E5
. %2E	[ %5B	± %B1	æ %E6
/ %2F	\ %5C	a %B2	ç %E7
0 %30	] %5D	, %B4	è %E8
1 %31	^ %5E	μ %B5	é %E9
2 %32	_ %5F	» %BB	ê %EA
3 %33	` %60	¼ %BC	ë %EB
4 %34	a %61	½ %BD	ì %EC
5 %35	b %62	¿ %BF	í %ED
6 %36	c %63	à %C0	î %EE
7 %37	d %64	á %C1	ï %EF
8 %38	e %65	Â %C2	e %F0
9 %39	f %66	Ã %C3	ñ %F1
: %3A	g %67	Ä %C4	ò %F2
; %3B	h %68	Å %C5	ó %F3
< %3C	i %69	Æ %C6	ô %F4
= %3D	j %6A	Ç %C7	õ %F5
> %3E	k %6B	è %C8	ö %F6
%3F	l %6C	é　 %C9	÷　 %F7
@ %40	m %6D	ê %CA	ø %F8
A %41	n %6E	Ë %CB	ù %F9
B %42	o %6F	ì　 %CC	ú　 %FA
C %43	p %70	í %CD	û %FB
D %44	q %71	Î %CE	ü %FC
E %45	r %72	Ï %CF	y %FD
F %46	s %73	D %D0	t %FE
G %47	t %74	Ñ %D1	ÿ %FF
H %48	u %75	ò %D2

基本的理由是：

1.本身html代碼中，很多特殊字符，就有其本身的特殊含義，比如’#'，就適用於定位（html anchor），所以，這類字符，本身有特殊含義的字符，斌直接用於發送，所以需要編碼；

2.如果其中本身就包含一些，非打印的控制字符，那么無法正常打印顯示，所以必須被編碼才能傳輸。

3.還有些保留字符（&,=,:），不安全字符（<,>,#），所以需要對url地址編碼。

4.另外，還有一些，最容易想到的，比如空格，如果出現在一個url地址中間，我們就很難判斷，空格前后的內容，是否是屬於整個的單一的url的，所以，對於空格這樣的特殊字符，肯定是需要編碼的。

5.防止SQL注入

注意：一般來說，空格’ ‘，都是和其他字符一樣，被編碼為對應16進制形式，即%20，但是空格卻是被編碼為加號’+'的。

我們使用python來對url進行編碼：urllib.quote(string,[,safe]),urllib.quote_plus(string,[,safe])與urllib.quote類似，但這個方法用'+'來替換' '，而quote用'%20'來代空格。同樣對'/'是默認不安全的。safe參數是可選的，意義是不被編碼的安全參數，默認是'/'

import urllib
encodedUrl = "http%3A%2F%2Fwww.baidu.com%2Fcache%2Fuser%2Fhtml%2Fjump.html"
decodedUrl=urllib.unquote(encodedUrl)
url = urllib.quote(decodedUrl)
url_plus = urllib.quote_plus(decodedUrl)

print 'encodedUrl',encodedUrl
print 'decodedUrl',decodedUrl
print 'url',url
print 'url_plus',urlplus

結果，我們可以看到經過解碼然后再用quote編碼的url與初始的url不同，它沒有對'/'進行編碼，而quote_plus卻進行了編碼。

同樣的解碼我們使用 urllib.unquote和urllib.unquote_plus。

接下來我們講一下urllib模塊的其他函數吧，

urllib.urlopen(url[,data[,proxies]])關於urlopen網上的中英文資料太多了，這兒就不多說了。

urllib.urlretrieve(url[,filename,[,reporthook[,data]]])

urlretrieve方法直接將遠程數據下載到本地。參數filename指定了保存到本地的路徑（如果未指定該參數，urllib會生成一個臨時文件來保存數據）；參數reporthook是一個回調函數，當連接上服務器、以及相應的數據塊傳輸完畢的時候會觸發該回調。我們可以利用這個回調函數來顯示當前的下載進度。該方法返回一個包含兩個元素的元組(filename, headers)，filename表示保存到本地的路徑，header表示服務器的響應頭。

Content-Length是一個下界，如果讀到的數據大於Content-Length,會繼續讀入，如果小於，將會觸發異常。如果沒有Content-Length,urlretrieve將不會檢查所下載數據的大小。

代碼來自：地址，有一點不是很清楚，就是cbk參數a,b,c是自動傳入的？

# -*- coding: cp936 -*-
import urllib
def cbk(a, b, c):
    '''回調函數
    @a: 已經下載的數據塊
    @b: 數據塊的大小
    @c: 遠程文件的大小
    '''
    per = 100.0 * a * b / c
    if per > 100:
        per = 100
    print '%.2f%%' % per

url = 'http://www.sina.com.cn'
local = 'd://sina.html'
urllib.urlretrieve(url, local, cbk)

注意 urlopen和urlretrieve將產生一個FancyURLopen實例，然后使用它來執行請求操作。

urllib.urlcleanup():將調用urlretrieve（）產生的緩存進行清除

urllib.urlencode(query[, doseq])：將dict或者包含兩個元素的元組列表轉換成url參數。

import urllib
params = urllib.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})
f = urllib.urlopen("http://www.musi-cal.com/cgi-bin/query", params)#將字典中的參數傳遞過去 
print f.read()

urllib.pathname2url(path)：將本地路徑轉換成url路徑；

url = urllib.pathname2url(r'c:/a/b/c/example.html')
print url
location =  urllib.url2pathname(url)
print location

urllib.url2pathname(path)：將url路徑轉換成本地路徑；

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python url 編碼解碼 URL的編碼和解碼 URL的編碼和解碼 Oracle url編碼與解碼 URL編碼及解碼 URL編碼與解碼 url編碼與解碼 .NET url 的編碼與解碼 python url編碼與解碼 Python3的URL編碼解碼