python通過get方式,post方式發送http請求和接收http響應-urllib urllib2


轉自:https://www.cnblogs.com/poerli/p/6429673.html

測試用CGI,名字為test.py,放在apache的cgi-bin目錄下:
#!/usr/bin/Python
import cgi
def main(): 
    print "Content-type: text/html\n"
    form = cgi.FieldStorage()
    if form.has_key("ServiceCode") and form["ServiceCode"].value != "":
        print "<h1> Hello",form["ServiceCode"].value,"</h1>" 
    else:   
        print "<h1> Error! Please enter first name.</h1>" 
main()

 

python發送post和get請求

get請求:

使用get方式時,請求數據直接放在url中。
方法一、
import urllib
import urllib2

url = "http://192.168.81.16/cgi-bin/python_test/test.py?ServiceCode=aaaa"

req = urllib2.Request(url)
print req

res_data = urllib2.urlopen(req)
res = res_data.read()
print res

方法二、
import httplib

url = "http://192.168.81.16/cgi-bin/python_test/test.py?ServiceCode=aaaa"

conn = httplib.HTTPConnection("192.168.81.16")
conn.request(method="GET",url=url) 

response = conn.getresponse()
res= response.read()
print res

post請求:

使用post方式時,數據放在data或者body中,不能放在url中,放在url中將被忽略。
方法一、
import urllib
import urllib2

test_data = {'ServiceCode':'aaaa','b':'bbbbb'}
test_data_urlencode = urllib.urlencode(test_data)

requrl = "http://192.168.81.16/cgi-bin/python_test/test.py"

req = urllib2.Request(url = requrl,data =test_data_urlencode)
print req

res_data = urllib2.urlopen(req)
res = res_data.read()
print res


方法二、
import urllib
import httplib 
test_data = {'ServiceCode':'aaaa','b':'bbbbb'}
test_data_urlencode = urllib.urlencode(test_data)

requrl = "http://192.168.81.16/cgi-bin/python_test/test.py"
headerdata = {"Host":"192.168.81.16"}

conn = httplib.HTTPConnection("192.168.81.16")

conn.request(method="POST",url=requrl,body=test_data_urlencode,headers = headerdata) 

response = conn.getresponse()

res= response.read()

print res
對python中json的使用不清楚,所以臨時使用了urllib.urlencode(test_data)方法;

 

模塊urllib,urllib2,httplib的區別
        httplib實現了http和https的客戶端協議,但是在python中,模塊urllib和urllib2對httplib進行了更上層的封裝。
 

介紹下例子中用到的函數:
1、HTTPConnection函數

httplib.HTTPConnection(host[,port[,stict[,timeout]]])
這個是構造函數,表示一次與服務器之間的交互,即請求/響應
host        標識服務器主機(服務器IP或域名)
port         默認值是80
strict        模式是False,表示無法解析服務器返回的狀態行時,是否拋出BadStatusLine異常
例如:
         conn = httplib.HTTPConnection("192.168.81.16",80)          與服務器建立鏈接。

 
2、HTTPConnection.request(method,url[,body[,header]])函數
這個是向服務器發送請求
method           請求的方式,一般是post或者get,

例如:

         method="POST"或method="Get"
url                  請求的資源,請求的資源(頁面或者CGI,我們這里是CGI)

例如:

        url="http://192.168.81.16/cgi-bin/python_test/test.py"      請求CGI

        或者

        url="http://192.168.81.16/python_test/test.html"                請求頁面
body               需要提交到服務器的數據,可以用json,也可以用上面的格式,json需要調用json模塊
headers         請求的http頭headerdata = {"Host":"192.168.81.16"}
例如:
test_data = {'ServiceCode':'aaaa','b':'bbbbb'}
test_data_urlencode = urllib.urlencode(test_data)
requrl = "http://192.168.81.16/cgi-bin/python_test/test.py"
headerdata = {"Host":"192.168.81.16"}
conn = httplib.HTTPConnection("192.168.81.16",80)
conn.request(method="POST",url=requrl,body=test_data_urlencode,headers = headerdata)  
conn在使用完畢后,應該關閉,conn.close()


3、HTTPConnection.getresponse()函數
     這個是獲取http響應,返回的對象是HTTPResponse的實例。

 


4、HTTPResponse介紹:
HTTPResponse的屬性如下:
read([amt])                              獲取響應消息體,amt表示從響應流中讀取指定字節的數據,沒有指定時,將全部數據讀出;
getheader(name[,default])      獲得響應的header,name是表示頭域名,在沒有頭域名的時候,default用來指定返回值
getheaders()                           以列表的形式獲得header
例如:

date=response.getheader('date');
print date
resheader=''
resheader=response.getheaders();
print resheader

列形式的響應頭部信息:

[('content-length', '295'), ('accept-ranges', 'bytes'), ('server', 'Apache'), ('last-modified', 'Sat, 31 Mar 2012 10:07:02 GMT'), ('connection', 'close'), ('etag', '"e8744-127-4bc871e4fdd80"'), ('date', 'Mon, 03 Sep 2012 10:01:47 GMT'), ('content-type', 'text/html')] 

date=response.getheader('date');
print date

取出響應頭部的date的值。

 
******************************************************************************************************************************************************************************************************************************************************
 

所謂網頁抓取,就是把URL地址中指定的網絡資源從網絡流中讀取出來,保存到本地。 
類似於使用程序模擬IE瀏覽器的功能,把URL作為HTTP請求的內容發送到服務器端, 然后讀取服務器端的響應資源。

在Python中,我們使用urllib2這個組件來抓取網頁。
urllib2是Python的一個獲取URLs(Uniform Resource Locators)的組件。

它以urlopen函數的形式提供了一個非常簡單的接口。

最簡單的urllib2的應用代碼只需要四行。

我們新建一個文件urllib2_test01.py來感受一下urllib2的作用:

import urllib2
response = urllib2.urlopen('http://www.baidu.com/')
html = response.read()
print html


按下F5可以看到運行的結果:

我們可以打開百度主頁,右擊,選擇查看源代碼(火狐OR谷歌瀏覽器均可),會發現也是完全一樣的內容。

也就是說,上面這四行代碼將我們訪問百度時瀏覽器收到的代碼們全部打印了出來。

這就是一個最簡單的urllib2的例子。

除了"http:",URL同樣可以使用"ftp:","file:"等等來替代。

HTTP是基於請求和應答機制的:

客戶端提出請求,服務端提供應答。

urllib2用一個Request對象來映射你提出的HTTP請求。

在它最簡單的使用形式中你將用你要請求的地址創建一個Request對象,

通過調用urlopen並傳入Request對象,將返回一個相關請求response對象,

這個應答對象如同一個文件對象,所以你可以在Response中調用.read()。

我們新建一個文件urllib2_test02.py來感受一下:

import urllib2  
req = urllib2.Request('http://www.baidu.com') 
response = urllib2.urlopen(req) 
the_page = response.read() 
print the_page

可以看到輸出的內容和test01是一樣的。

urllib2使用相同的接口處理所有的URL頭。例如你可以像下面那樣創建一個ftp請求。

req = urllib2.Request('ftp://example.com/')

在HTTP請求時,允許你做額外的兩件事。

1.發送data表單數據

這個內容相信做過Web端的都不會陌生,

有時候你希望發送一些數據到URL(通常URL與CGI[通用網關接口]腳本,或其他WEB應用程序掛接)。

在HTTP中,這個經常使用熟知的POST請求發送。

這個通常在你提交一個HTML表單時由你的瀏覽器來做。

並不是所有的POSTs都來源於表單,你能夠使用POST提交任意的數據到你自己的程序。

一般的HTML表單,data需要編碼成標准形式。然后做為data參數傳到Request對象。

編碼工作使用urllib的函數而非urllib2。

我們新建一個文件urllib2_test03.py來感受一下:

import urllib  
import urllib2 
url = 'http://www.someserver.com/register.cgi' 
values = {'name' : 'WHY', 
          'location' : 'SDU', 
          'language' : 'Python' } 
data = urllib.urlencode(values) # 編碼工作
req = urllib2.Request(url, data)  # 發送請求同時傳data表單
response = urllib2.urlopen(req)  #接受反饋的信息
the_page = response.read()  #讀取反饋的內容

如果沒有傳送data參數,urllib2使用GET方式的請求。

GET和POST請求的不同之處是POST請求通常有"副作用",

它們會由於某種途徑改變系統狀態(例如提交成堆垃圾到你的門口)。

Data同樣可以通過在Get請求的URL本身上面編碼來傳送。

import urllib2  
import urllib
data = {}
data['name'] = 'WHY' 
data['location'] = 'SDU' 
data['language'] = 'Python'
url_values = urllib.urlencode(data) 
print url_values
name=Somebody+Here&language=Python&location=Northampton 
url = 'http://www.example.com/example.cgi' 
full_url = url + '?' + url_values
data = urllib2.open(full_url)

這樣就實現了Data數據的Get傳送。

2.設置Headers到http請求

有一些站點不喜歡被程序(非人為訪問)訪問,或者發送不同版本的內容到不同的瀏覽器。

默認的urllib2把自己作為“Python-urllib/x.y”(x和y是Python主版本和次版本號,例如Python-urllib/2.7),

這個身份可能會讓站點迷惑,或者干脆不工作。

瀏覽器確認自己身份是通過User-Agent頭,當你創建了一個請求對象,你可以給他一個包含頭數據的字典。

下面的例子發送跟上面一樣的內容,但把自身模擬成Internet Explorer。

(多謝大家的提醒,現在這個Demo已經不可用了,不過原理還是那樣的)。

import urllib  
import urllib2 
url = 'http://www.someserver.com/cgi-bin/register.cgi'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 
values = {'name' : 'WHY', 
          'location' : 'SDU', 
          'language' : 'Python' } 
headers = { 'User-Agent' : user_agent } 
data = urllib.urlencode(values) 
req = urllib2.Request(url, data, headers) 
response = urllib2.urlopen(req) 
the_page = response.read() 

以上就是python利用urllib2通過指定的URL抓取網頁內容的全部內容,非常簡單吧,希望對大家能有所幫助


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM