為何要將URL地址進行編碼 然后發送到服務器端?
協議規范:RFC 1738,定義了,url地址中,不能包含,除了,0-9的數字,大小寫字母(a-zA-Z),短橫線’-’之外的字母,但是我們的URL中不止這些字符還有一些特殊字符比如$-_.+!*’(),這時候就需要我們進行編碼傳輸。編碼很簡單,就是將其值變為%xx而已,而xx就是該字符的16進制值而已。下面的表取自百度百科,大家可以參考一下。
backspace %08
|
I %49
|
v %76
|
ó %D3
|
tab %09
|
J %4A
|
w %77
|
Ô %D4
|
linefeed %0A
|
K %4B
|
x %78
|
Õ %D5
|
creturn %0D
|
L %4C
|
y %79
|
Ö %D6
|
space %20
|
M %4D
|
z %7A
|
Ø %D8
|
! %21
|
N %4E
|
{ %7B
|
ù %D9
|
" %22
|
O %4F
|
| %7C
|
ú %DA
|
# %23
|
P %50
|
} %7D
|
Û %DB
|
$ %24
|
Q %51
|
~ %7E
|
ü %DC
|
% %25
|
R %52
|
¢ %A2
|
Y %DD
|
& %26
|
S %53
|
£ %A3
|
T %DE
|
' %27
|
T %54
|
¥ %A5
|
ß %DF
|
( %28
|
U %55
|
| %A6
|
à %E0
|
) %29
|
V %56
|
§ %A7
|
á %E1
|
* %2A
|
W %57
|
« %AB
|
a %E2
|
+ %2B
|
X %58
|
¬ %AC
|
ã %E3
|
, %2C
|
Y %59
|
ˉ %AD
|
ä %E4
|
- %2D
|
Z %5A
|
o %B0
|
å %E5
|
. %2E
|
[ %5B
|
± %B1
|
æ %E6
|
/ %2F
|
\ %5C
|
a %B2
|
ç %E7
|
0 %30
|
] %5D
|
, %B4
|
è %E8
|
1 %31
|
^ %5E
|
μ %B5
|
é %E9
|
2 %32
|
_ %5F
|
» %BB
|
ê %EA
|
3 %33
|
` %60
|
¼ %BC
|
ë %EB
|
4 %34
|
a %61
|
½ %BD
|
ì %EC
|
5 %35
|
b %62
|
¿ %BF
|
í %ED
|
6 %36
|
c %63
|
à %C0
|
î %EE
|
7 %37
|
d %64
|
á %C1
|
ï %EF
|
8 %38
|
e %65
|
 %C2
|
e %F0
|
9 %39
|
f %66
|
à %C3
|
ñ %F1
|
: %3A
|
g %67
|
Ä %C4
|
ò %F2
|
; %3B
|
h %68
|
Å %C5
|
ó %F3
|
< %3C
|
i %69
|
Æ %C6
|
ô %F4
|
= %3D
|
j %6A
|
Ç %C7
|
õ %F5
|
> %3E
|
k %6B
|
è %C8
|
ö %F6
|
%3F
|
l %6C
|
é %C9
|
÷ %F7
|
@ %40
|
m %6D
|
ê %CA
|
ø %F8
|
A %41
|
n %6E
|
Ë %CB
|
ù %F9
|
B %42
|
o %6F
|
ì %CC
|
ú %FA
|
C %43
|
p %70
|
í %CD
|
û %FB
|
D %44
|
q %71
|
Î %CE
|
ü %FC
|
E %45
|
r %72
|
Ï %CF
|
y %FD
|
F %46
|
s %73
|
D %D0
|
t %FE
|
G %47
|
t %74
|
Ñ %D1
|
ÿ %FF
|
H %48
|
u %75
|
ò %D2
|
|
基本的理由是:
1.本身html代碼中,很多特殊字符,就有其本身的特殊含義,比如’#',就適用於定位(html anchor),所以,這類字符,本身有特殊含義的字符,斌直接用於發送,所以需要編碼;
2.如果其中本身就包含一些,非打印的控制字符,那么無法正常打印顯示,所以必須被編碼才能傳輸。
3.還有些保留字符(&,=,:),不安全字符(<,>,#),所以需要對url地址編碼。
4.另外,還有一些,最容易想到的,比如空格,如果出現在一個url地址中間,我們就很難判斷,空格前后的內容,是否是屬於整個的單一的url的,所以,對於空格這樣的特殊字符,肯定是需要編碼的。
5.防止SQL注入
注意 : 一般來說,空格’ ‘,都是和其他字符一樣,被編碼為對應16進制形式,即%20,但是空格卻是被編碼為加號’+'的。
我們使用python來對url進行編碼:urllib.quote(string,[,safe]),urllib.quote_plus(string,[,safe])與urllib.quote類似,但這個方法用'+'來替換' ',而quote用'%20'來代空格。同樣對'/'是默認不安全的。safe參數是可選的,意義是不被編碼的安全參數,默認是'/'
import urllib encodedUrl = "http%3A%2F%2Fwww.baidu.com%2Fcache%2Fuser%2Fhtml%2Fjump.html" decodedUrl=urllib.unquote(encodedUrl) url = urllib.quote(decodedUrl) url_plus = urllib.quote_plus(decodedUrl) print 'encodedUrl',encodedUrl print 'decodedUrl',decodedUrl print 'url',url print 'url_plus',urlplus
結果,我們可以看到經過解碼然后再用quote編碼的url與初始的url不同,它沒有對'/'進行編碼,而quote_plus卻進行了編碼。
同樣的解碼我們使用 urllib.unquote和urllib.unquote_plus。
接下來我們講一下urllib模塊的其他函數吧,
urllib.urlopen(url[,data[,proxies]])關於urlopen網上的中英文資料太多了,這兒就不多說了。
urllib.urlretrieve(url[,filename,[,reporthook[,data]]])
urlretrieve方法直接將遠程數據下載到本地。參數filename指定了保存到本地的路徑(如果未指定該參數,urllib會生成一個臨時文件來保存數據);參數reporthook是一個回調函數,當連接上服務器、以及相應的數據塊傳輸完畢的時候會觸發該回調。我們可以利用這個回調函 數來顯示當前的下載進度。該方法返回一個包含兩個元素的元組(filename, headers),filename表示保存到本地的路徑,header表示服務器的響應頭。
Content-Length是一個下界,如果讀到的數據大於Content-Length,會繼續讀入,如果小於,將會觸發異常。如果沒有Content-Length,urlretrieve將不會檢查所下載數據的大小。
代碼來自 : 地址,有一點不是很清楚,就是cbk參數a,b,c是自動傳入的?
# -*- coding: cp936 -*- import urllib def cbk(a, b, c): '''回調函數 @a: 已經下載的數據塊 @b: 數據塊的大小 @c: 遠程文件的大小 ''' per = 100.0 * a * b / c if per > 100: per = 100 print '%.2f%%' % per url = 'http://www.sina.com.cn' local = 'd://sina.html' urllib.urlretrieve(url, local, cbk)
注意 urlopen和urlretrieve將產生一個FancyURLopen實例,然后使用它來執行請求操作。
urllib.urlcleanup():將調用urlretrieve()產生的緩存進行清除
urllib.urlencode(query[, doseq]):將dict或者包含兩個元素的元組列表轉換成url參數。
import urllib params = urllib.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0}) f = urllib.urlopen("http://www.musi-cal.com/cgi-bin/query", params)#將字典中的參數傳遞過去 print f.read()
urllib.pathname2url(path):將本地路徑轉換成url路徑;
url = urllib.pathname2url(r'c:/a/b/c/example.html') print url location = urllib.url2pathname(url) print location
urllib.url2pathname(path):將url路徑轉換成本地路徑;