url編碼與解碼


為何要將URL地址進行編碼 然后發送到服務器端? 

協議規范:RFC 1738,定義了,url地址中,不能包含,除了,0-9的數字,大小寫字母(a-zA-Z),短橫線’-’之外的字母,但是我們的URL中不止這些字符還有一些特殊字符比如$-_.+!*’(),這時候就需要我們進行編碼傳輸。編碼很簡單,就是將其值變為%xx而已,而xx就是該字符的16進制值而已。下面的表取自百度百科,大家可以參考一下。

backspace %08
I %49
v %76
ó %D3
tab %09
J %4A
w %77
Ô %D4
linefeed %0A
K %4B
x %78
Õ %D5
creturn %0D
L %4C
y %79
Ö %D6
space %20
M %4D
z %7A
Ø %D8
! %21
N %4E
{ %7B
ù %D9
" %22
O %4F
| %7C
ú  %DA
# %23
P %50
} %7D
Û %DB
$ %24
Q %51
~ %7E
ü %DC
% %25
R %52
¢ %A2
Y %DD
& %26
S %53
£ %A3
T %DE
' %27
T %54
¥ %A5
ß %DF
( %28
U %55
| %A6
à %E0
) %29
V %56
§ %A7
á %E1
* %2A
W %57
« %AB
a %E2
+ %2B
X %58
¬ %AC
ã %E3
, %2C
Y %59
ˉ %AD
ä %E4
- %2D
Z %5A
o %B0
å %E5
. %2E
[ %5B
± %B1
æ %E6
/ %2F
\ %5C
a %B2
ç %E7
0 %30
] %5D
, %B4
è %E8
1 %31
^ %5E
μ %B5
é %E9
2 %32
_ %5F
» %BB
ê %EA
3 %33
` %60
¼ %BC
ë %EB
4 %34
a %61
½ %BD
ì %EC
5 %35
b %62
¿ %BF
í %ED
6 %36
c %63
à %C0
î %EE
7 %37
d %64
á %C1
ï %EF
8 %38
e %65
 %C2
e %F0
9 %39
f %66
à %C3
ñ %F1
: %3A
g %67
Ä %C4
ò %F2
; %3B
h %68
Å %C5
ó %F3
< %3C
i %69
&AElig; %C6
&ocirc; %F4
= %3D
j %6A
&Ccedil; %C7
&otilde; %F5
> %3E
k %6B
è %C8
&ouml; %F6
%3F
l %6C
é  %C9
÷  %F7
@ %40
m %6D
ê %CA
&oslash; %F8
A %41
n %6E
&Euml; %CB
ù %F9
B %42
o %6F
ì  %CC
ú  %FA
C %43
p %70
í %CD
&ucirc; %FB
D %44
q %71
&Icirc; %CE
ü %FC
E %45
r %72
&Iuml; %CF
y %FD
F %46
s %73
D %D0
t %FE
G %47
t %74
&Ntilde; %D1
&yuml; %FF
H %48
u %75
ò %D2

 

基本的理由是:

1.本身html代碼中,很多特殊字符,就有其本身的特殊含義,比如’#',就適用於定位(html anchor),所以,這類字符,本身有特殊含義的字符,斌直接用於發送,所以需要編碼;

2.如果其中本身就包含一些,非打印的控制字符,那么無法正常打印顯示,所以必須被編碼才能傳輸。

3.還有些保留字符(&,=,:),不安全字符(<,>,#),所以需要對url地址編碼。

4.另外,還有一些,最容易想到的,比如空格,如果出現在一個url地址中間,我們就很難判斷,空格前后的內容,是否是屬於整個的單一的url的,所以,對於空格這樣的特殊字符,肯定是需要編碼的。

5.防止SQL注入 

注意 : 一般來說,空格’ ‘,都是和其他字符一樣,被編碼為對應16進制形式,即%20,但是空格卻是被編碼為加號’+'的。

我們使用python來對url進行編碼:urllib.quote(string,[,safe]),urllib.quote_plus(string,[,safe])與urllib.quote類似,但這個方法用'+'來替換' ',而quote用'%20'來代空格。同樣對'/'是默認不安全的。safe參數是可選的,意義是不被編碼的安全參數,默認是'/'

import urllib
encodedUrl = "http%3A%2F%2Fwww.baidu.com%2Fcache%2Fuser%2Fhtml%2Fjump.html"
decodedUrl=urllib.unquote(encodedUrl)
url = urllib.quote(decodedUrl)
url_plus = urllib.quote_plus(decodedUrl)

print 'encodedUrl',encodedUrl
print 'decodedUrl',decodedUrl
print 'url',url
print 'url_plus',urlplus

結果,我們可以看到經過解碼然后再用quote編碼的url與初始的url不同,它沒有對'/'進行編碼,而quote_plus卻進行了編碼。

同樣的解碼我們使用 urllib.unquote和urllib.unquote_plus。

接下來我們講一下urllib模塊的其他函數吧,

urllib.urlopen(url[,data[,proxies]])關於urlopen網上的中英文資料太多了,這兒就不多說了。

urllib.urlretrieve(url[,filename,[,reporthook[,data]]])

urlretrieve方法直接將遠程數據下載到本地。參數filename指定了保存到本地的路徑(如果未指定該參數,urllib會生成一個臨時文件來保存數據);參數reporthook是一個回調函數,當連接上服務器、以及相應的數據塊傳輸完畢的時候會觸發該回調。我們可以利用這個回調函 數來顯示當前的下載進度。該方法返回一個包含兩個元素的元組(filename, headers),filename表示保存到本地的路徑,header表示服務器的響應頭。

Content-Length是一個下界,如果讀到的數據大於Content-Length,會繼續讀入,如果小於,將會觸發異常。如果沒有Content-Length,urlretrieve將不會檢查所下載數據的大小。

代碼來自 : 地址,有一點不是很清楚,就是cbk參數a,b,c是自動傳入的?

# -*- coding: cp936 -*-
import urllib
def cbk(a, b, c):
    '''回調函數
    @a: 已經下載的數據塊
    @b: 數據塊的大小
    @c: 遠程文件的大小
    '''
    per = 100.0 * a * b / c
    if per > 100:
        per = 100
    print '%.2f%%' % per

url = 'http://www.sina.com.cn'
local = 'd://sina.html'
urllib.urlretrieve(url, local, cbk)

注意 urlopen和urlretrieve將產生一個FancyURLopen實例,然后使用它來執行請求操作。 

urllib.urlcleanup():將調用urlretrieve()產生的緩存進行清除 

urllib.urlencode(query[, doseq]):將dict或者包含兩個元素的元組列表轉換成url參數。

import urllib
params = urllib.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})
f = urllib.urlopen("http://www.musi-cal.com/cgi-bin/query", params)#將字典中的參數傳遞過去 
print f.read()

urllib.pathname2url(path):將本地路徑轉換成url路徑;

url = urllib.pathname2url(r'c:/a/b/c/example.html')
print url
location =  urllib.url2pathname(url)
print location

urllib.url2pathname(path):將url路徑轉換成本地路徑;

 

                  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM