python網絡編程學習筆記(6):Web客戶端訪問


轉載請注明:@小五義http://www.cnblogs.com/xiaowuyi

6.1 最簡單的爬蟲
網絡爬蟲是一個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。python的urllib\urllib2等模塊很容易實現這一功能,下面的例子實現的是對baidu首頁的下載。具體代碼如下:

import urllib2
page=urllib2.urlopen("http://www.baidu.com")
print page.read()

6.2 提交表單數據
(1)用GET方法提交數據
提交表單的GET方法是把表單數據編碼至URL。在給出請示的頁面后,加上問號,接着是表單的元素。如在百度中搜索“馬伊琍”得到url為http://www.baidu.com/s?wd=%E9%A9%AC%E4%BC%8A%E7%90%8D&pn=100&rn=20&ie=utf-8&usm=4&rsv_page=1。其中?后面為表單元素。wd=%E9%A9%AC%E4%BC%8A%E7%90%8D表示搜索的詞是“馬伊琍”,pn表示從第100條信息所在頁開始顯示(感覺是這樣,我試了幾次,當寫100時,從其所在頁顯示,但如果寫10,就是從第1頁顯示),rn=20表示每頁顯示20條,ie=utf-8表示編碼格式,usm=4沒明白是什么意思,換了1、2、3試了下,沒發現什么變化,rsv_page=1表示第幾頁。如果要下載以上頁面比較簡單的方法是直接用上面的網址進行提取。如代碼:

import urllib2
keyword=urllib.quote('馬伊琍')
page=urllib2.urlopen("http://www.baidu.com/s?wd="+keyword+"&pn=100&rn=20&ie=utf-8&usm=4&rsv_page=1")
print page.read()

(2)用post方法提交
GET方法中,數據是被加到URL上,這種方法數據量要求不大,如果需要交換大量數據的時間,POST方法是一個很好的方法。這里以前段時間寫的博客《python模擬163登陸獲取郵件列表》為例,具體代碼不在列出,詳見地址:http://www.cnblogs.com/xiaowuyi/archive/2012/05/21/2511428.html。

6.3 urllib,urllib2,httplib,mechanize的介紹
6.3.1urllib模塊(引自:http://my.oschina.net/duhaizhang/blog/68893)
urllib模塊提供接口可以使我們像訪問本地文件一樣來讀取www和ftp上的數據。模塊中最重要的兩個函數分別是:urlopen()和urlretrieve()。

urllib.urlopen(url[, data[, proxies]]) :
本函數創建一個表示遠程url的類文件對象,然后像本地文件一樣操作這個類文件對象來獲取遠程數據。參數url表示遠程數據的路徑,一般是網址;參數data表示以post方式提交到url的數據;參數proxies用於設置代理。urlopen返回 一個類文件對象,返回的類文件對象提供了如下方法:

read(), readline(), readlines(), fileno(), close():這些方法的使用方式與文件對象完全一樣;
info():返回一個httplib.HTTPMessage對象,表示遠程服務器返回的頭信息;
getcode():返回Http狀態碼。如果是http請求,200表示請求成功完成;404表示網址未找到;
geturl():返回請求的url;

#! /usr/bin/env python
#coding=utf-8
import urllib
content=urllib.urlopen("http://www.baidu.com")
print "http header:",content.info()
print "http status:",content.getcode()
print "url:",content.geturl()
print "content:"
for line in content.readlines():
    print line

urllib.urlretrieve(url[, filename[, reporthook[, data]]]):
urlretrieve方法直接將遠程數據下載到本地。參數filename指定了保存到本地的路徑(如果未指定該參數,urllib會生成一個臨時文件來保存數據);參數reporthook是一個 回調函數,當連接上服務器、以及相應的數據 塊傳輸完畢的時候會觸發該回調(即每下載一塊就調用一次回調函數)。我們可以利用這個回調函 數來顯示當前的下載進度,也可以用於限速,下面的例子會展示。參數data指post到服務器的數據。該方法返回一個包含兩個元素的元組(filename, headers),filename表示保存到本地的路徑, header表示服務器的響應頭。

#! /usr/bin/env python 
# coding: utf-8 
"""下載文件,並顯示下載進度"""
import urllib

def DownCall(count,size,total_filesize):
    """count為已下載數據塊個數,size為數據塊的大小,total_filesize為文件總大小"""
    per=100.0*count*size/total_filesize
    if per>100:
        per=100
    print "Already download %d KB(%.2f"  %(count*size/1024,per)+"%)"

url="http://www.research.rutgers.edu/~rohanf/LP.pdf"
localfilepath=r"C:\Users\Administrator\Desktop\download.pdf"
urllib.urlretrieve(url,localfilepath,DownCall)

urllib中還提供了一些輔助方法,用於對url進行編碼、解碼。url中是不能出現一些特殊的符號的,有些符號有特殊的用途。我們知道以get方式提交數據的時候,會在url中添加key=value這樣的字符串,所以在value中是不允許有'=',因此要對其進行編碼;與此同時服務器接收到這些參數的時候,要進行解碼,還原成原始的數據。這個時候,這些輔助方法會很有用:

urllib.quote(string[, safe]):對字符串進行編碼。參數safe指定了不需要編碼的字符;
urllib.unquote(string) :對字符串進行解碼;
urllib.quote_plus(string[, safe]) :與urllib.quote類似,但這個方法用'+'來替換' ',而quote用'%20'來代替' '
urllib.unquote_plus(string) :對字符串進行解碼;
urllib.urlencode(query[, doseq]):將dict或者包含兩個元素的元組列表轉換成url參數。例如 字典{'name': 'dark-bull', 'age': 200}將被轉換為"name=dark-bull&age=200"
urllib.pathname2url(path):將本地路徑轉換成url路徑;
urllib.url2pathname(path):將url路徑轉換成本地路徑;

6.3.2 urllib2模塊(引自:http://hankjin.blog.163.com/blog/static/3373193720105140583594/)
使用Python訪問網頁主要有三種方式: urllib, urllib2, httplib
urllib比較簡單,功能相對也比較弱,httplib簡單強大,但好像不支持session
(1)最簡單的頁面訪問
res=urllib2.urlopen(url)
print res.read()
(2)加上要get或post的數據
data={"name":"hank", "passwd":"hjz"}
urllib2.urlopen(url, urllib.urlencode(data))
(3)加上http頭
header={"User-Agent": "Mozilla-Firefox5.0"}
urllib2.urlopen(url, urllib.urlencode(data), header)

使用opener和handler
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)
(4)加上session
cj = cookielib.CookieJar()
cjhandler=urllib2.HTTPCookieProcessor(cj)
opener = urllib2.build_opener(cjhandler)
urllib2.install_opener(opener)
(5)加上Basic認證
password_mgr = urllib2.HTTPPasswordMgrWithDefaultRealm()
top_level_url = "http://www.163.com/"
password_mgr.add_password(None, top_level_url, username, password)
handler = urllib2.HTTPBasicAuthHandler(password_mgr)
opener = urllib2.build_opener(handler)
urllib2.install_opener(opener)
(6) 使用代理
proxy_support = urllib2.ProxyHandler({"http":"http://1.2.3.4:3128/"})
opener = urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)
(7) 設置超時
socket.setdefaulttimeout(5)

6.3.3 httplib模塊(引自:http://hi.baidu.com/avengert/item/be5daec8517b12ddee183b81)
httplib 是 python中http 協議的客戶端實現,可以使用該模塊來與 HTTP 服務器進行交互。httplib的內容不是很多,也比較簡單。以下是一個非常簡單的例子,使用httplib獲取google首頁的html:

#coding=gbk   
import httplib   
conn = httplib.HTTPConnection("www.google.cn")   
conn.request('get', '/')   
print conn.getresponse().read()   
conn.close() 

下面詳細介紹httplib提供的常用類型和方法。
httplib.HTTPConnection ( host [ , port [ , strict [ , timeout ]]] )
  HTTPConnection類的構造函數,表示一次與服務器之間的交互,即請求/響應。參數host表示服務器主機,如:www.csdn.net;port為端口號,默認值為80; 參數strict的 默認值為false, 表示在無法解析服務器返回的狀態行時( status line) (比較典型的狀態行如: HTTP/1.0 200 OK ),是否拋BadStatusLine 異常;可選參數timeout 表示超時時間。
  HTTPConnection提供的方法:
HTTPConnection.request ( method , url [ , body [ , headers ]] )
  調用request 方法會向服務器發送一次請求,method 表示請求的方法,常用有方法有get 和post ;url 表示請求的資源的url ;body 表示提交到服務器的數據,必須是字符串(如果method 是"post" ,則可以把body 理解為html 表單中的數據);headers 表示請求的http 頭。
HTTPConnection.getresponse ()
  獲取Http 響應。返回的對象是HTTPResponse 的實例,關於HTTPResponse 在下面 會講解。
HTTPConnection.connect ()
  連接到Http 服務器。
HTTPConnection.close ()
  關閉與服務器的連接。
HTTPConnection.set_debuglevel ( level )
  設置高度的級別。參數level 的默認值為0 ,表示不輸出任何調試信息。
httplib.HTTPResponse
  HTTPResponse表示服務器對客戶端請求的響應。往往通過調用HTTPConnection.getresponse()來創建,它有如下方法和屬性:
HTTPResponse.read([amt])
  獲取響應的消息體。如果請求的是一個普通的網頁,那么該方法返回的是頁面的html。可選參數amt表示從響應流中讀取指定字節的數據。
HTTPResponse.getheader(name[, default])
  獲取響應頭。Name表示頭域(header field)名,可選參數default在頭域名不存在的情況下作為默認值返回。
HTTPResponse.getheaders()
  以列表的形式返回所有的頭信息。
HTTPResponse.msg
  獲取所有的響應頭信息。
HTTPResponse.version
  獲取服務器所使用的http協議版本。11表示http/1.1;10表示http/1.0。
HTTPResponse.status
  獲取響應的狀態碼。如:200表示請求成功。
HTTPResponse.reason
  返回服務器處理請求的結果說明。一般為”OK”
下面通過一個例子來熟悉HTTPResponse中的方法:

#coding=gbk   
import httplib   
conn = httplib.HTTPConnection("www.g.cn", 80, False)   
conn.request('get', '/', headers = {"Host": "www.google.cn",   
                                    "User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1) Gecko/20090624 Firefox/3.5",   
                                    "Accept": "text/plain"})   
res = conn.getresponse()   
print 'version:', res.version   
print 'reason:', res.reason   
print 'status:', res.status   
print 'msg:', res.msg   
print 'headers:', res.getheaders()   
#html   
#print '\n' + '-' * 50 + '\n'   
#print res.read()   
conn.close()  

Httplib模塊中還定義了許多常量,如:
Httplib. HTTP_PORT 的值為80,表示默認的端口號為80;
Httplib.OK 的值為200,表示請求成功返回;
Httplib. NOT_FOUND 的值為40表示請求的資源不存在;
可以通過httplib.responses 查詢相關變量的含義,如:
Print httplib.responses[httplib.NOT_FOUND]
6.3.4 mechanize
mechanize沒有找到比較完整的介紹,自己寫了一個簡單的例子如下。

# -*- coding: cp936 -*-
import time,string
import mechanize,urllib
from mechanize import Browser

urlname=urllib.quote('馬伊琍')
br=Browser()
br.set_handle_robots(False) ##ignore the robots.txt
urlhttp=r'http://www.baidu.com/s?'+urlname+"&pn=10&rn=20&ie=utf-8&usm=4&rsv_page=1"
response=br.open(urlhttp)
filename='temp.html'
f=open(filename,'w')
f.write(response.read())
f.close()


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM