非原創文章,轉自博客園http://www.cnblogs.com/TankXiao/archive/2012/02/13/2342672.html
當今web程序的開發技術百家爭鳴,asp.net,php,jsp,pert,ajax等等。無論web技術在未來如何發展,理解web程序之間通信的基本協議相當重要,因為它讓我們理解了web應用程序的內部工作。本為將對HTTP協議進行詳細的實例講解,內容較多,希望大家耐心看,也希望對大家的開發工作或者測試工作有所幫助。使用Fiddler工具非常方便捕獲HTTP Request和Http Response,關於Fiddler工具的用法,參照博主的另一篇文章[Fiddler 教程]
1、什么是HTTP協議
協議是指計算機通信網絡中兩台計算機之間進行通信所必須共同遵守的法定活規則,超文本傳輸協議(HTTP)是一種通信協議,它允許將超文本標記語言文檔從web服務器傳送到客戶端的瀏覽器。
目前我們使用的是HTTP/1.1版本
2、web服務器,瀏覽器,代理服務器
當我們打開瀏覽器,在地址欄中輸入URL,然后我們就看到了網頁。原理是怎樣的呢?
實際上我們輸入URL后,我們的瀏覽器給web服務發送了一個Request,Web服務接到Request后進行處理,生成相應的Reponse,然后發送給瀏覽器,瀏覽器解析Response中的HTML,這樣我們就看到了網頁,過程如下圖所示
我們的Request有可能是經過了代理服務器,最后才到達Web服務器的。
過程如下所示
代理服務器就是網絡信息的中轉站,有什么功能呢?
1、提高訪問速度,大多數的代理服務器都有緩存功能。
2、突破限制,也就是翻牆了
3、隱藏身份
3、URL詳解
URL(Uniform Resource Locator)地址用於描述一個網絡上的資源,基本格式如下
schema://host[:port#]/path/..../[?query-string][#anchor]
scheme 指定底層使用的協議(例如:http,https,ftp)
host HTTP服務器的IP地址或者域名
port# HTTP服務的默認端口是80,這種情況下端口號可以省略。如果使用了別的端口,必須指明,例如http://www.cnblogs.com:8080
path 訪問資源的路徑
query-string 發送給http服務器的數據
anchor 錨
URL的一個例子
http://www.mywebsite.com/sj/test/test.aspx?name=sivergn&x=true#stuff schema: http host: www.mywebsite.com path: /sj/test/test.aspx Query String: name=sviergn&x=true Anchor: stuff
4、HTTP協議是無狀態的
http協議是無狀態的,同一個客戶端的這次請求和上次請求時沒有對應關系的,對HTTP服務來說,他並不知道這兩個請求來自同一個客戶端。為了解決這個問題,web程序引入了Cookie機制來維護狀態。
5、打開一個網頁需要瀏覽器發送很多次Request
1、當你在瀏覽器輸入URL HTTP://www.cnblogs.com的時候,瀏覽器發送一個Request去獲取HTTP://www.cnblogs.com的html,服務器把Response發送回瀏覽器
2、瀏覽器分析Request中的HTML,發現其中引用了很多其他文件,必然圖片,css文件,js文件。
3、瀏覽器會自動再次發送Request去獲取圖片、css文件,或者js文件
4、等所有的文件都成功下載后,網頁就被顯示出來了。
6、HTTP消息的結構
先看Request消息的結構,Request消息分為3部分,第一部分叫Request line,第二部分叫Request header,第三部分是body,header和body之間有個空行,結構如下圖
第一行中的Method表示請求方法,比如“POST”、“GET”,path-to-resource表示請求的資源,http/version-number表示HTTP協議的版本號
當使用的是“GET”方法的時候,body是為空的
比如我們打開博客園首頁的request如下
GET http://www.cnblogs.com/ HTTP/1.1 Host:www.cnblogs.com
抽象的東西,難以理解,老感覺是虛的,所謂眼見為實,實際見到的東西,我們才能理解和記憶。我們今天用Fiddler,實際的看看Request和Response。
下面我們打開Fiddler捕獲一個博客園登錄的Request然后分析下他們的結構,在Inspectors tab下以Raw的方式可以看到完整的Request的消息,如下圖
我們再看Reponse消息的結構,和Request消息的結構基本一樣。同樣也分為三部分,第一部分叫Response line,第二部分叫Reponse header,第三部分是body,header和body之間也有個空行,結構如下圖
HTTP/version-number表示HTTP協議的版本號,status-code和message請看下面的詳細解釋
我們用Fiddler捕捉一個博客園首頁的Response然后分析下它的結構,在Inspectors tab下以Raw的方式可以完整的response的消息,如下圖
7、Get和Post方法的區別
HTTP協議定義了很多與服務器交互的方法,最基本的有4種,分別是GET,POST,PUT,DELETE,一個URL地址用於描述一個網絡上的資源,而HTTP中的GET,POST,PUT,DELETE就對應着對這個資源的查、改、增、刪4個操作。我們最常見的就是GET和POST了。GET一般用戶獲取/查詢資源信息,而POST一般用於更新資源信息。
我們看看GET和PSOST的區別
1、GET提交的數據會放在URL之后,以?分割URL和傳輸數據,參數之間以&相連,如EditPosts.aspx?name=test1&id=12345,POST方法是把提交的數據放在HTTP包的Body中。
2、GET提交的數據大小有限制(因為瀏覽器對URL的長度有限制),而Post方法提交的數據沒有限制
3、GET方式需要使用Request.QueryString來取得變量的值,而Post方式通過Request.Form來獲取變量的值。
4、GET方式提交數據,會帶來安全問題,比如登錄一個頁面,通過Get方式提交數據時,用戶名和密碼出現在URL上,如果頁面可以被緩存或者其他人可以訪問這台機器,就可以從歷史記錄獲得該用戶的賬號和密碼。
8、狀態碼
Resonse消息中俄第一行叫做狀態行,由HTTP協議本號,狀態碼,狀態消息 三部分組成。
狀態碼用來告訴HTTP客戶端,HTTP服務器是否產生了預期的Response。
HTTP/1.1中定義了5類狀態碼,狀態碼由三位數字組成,第一個數字定義了相應的類別
1xx 提示信息-表示請求已被成功接收,繼續處理
2xx 成功-表示請求已被成功接收,理解,接受
3xx 重定向-要完成請求必須進行更進一步的處理
4xx 客戶端錯誤-請求有語法錯誤或請求無法實現
5xx 服務器端錯誤-服務器未能實現合法的請求
看看一些常見的狀態
200 OK
最常見的就是成功相應狀態碼200,這表明請求被成功的完成,所請求的資料發送回客戶端
如下圖,打開博客園首頁
302 Found
重定向,新的URL會在Response中的Location中返回,瀏覽器將自動使用新的URL發出新的Request 例如在IE中輸入,http://www.googl.com,HTTP服務器會返回302,IE取到Response中的Location header的新URL,又重新發送了一個Request。
304 Not Modified
代表上次的文檔已經被緩存,還可以繼續使用,
例如打開博客園首頁,你會發現很多Reponse的status code 都是304
提示:如果你不想使用本地緩存使用本地緩存可以用Ctrl+F5強制刷新頁面
400 Bad Request客戶端請求與語法錯誤,不能被服務器所理解
403 Forbidden服務器收到請求,但是拒絕提供服務
404 Not Found
請求資源不存在(輸錯了URL)
比如在IE中輸入一個錯誤的URL, http://www.cnblogs.com/tesdf.aspx
500 Internal server Error服務發生了不可預計的錯誤
503 Server Unavailable 服務器當前不能處理客戶端的請求,一段時間后可能恢復正常
9、HTTP Request header
使用Fiddler能很方便的查看Request header,點擊Inspectors tab-> Request tab ->heades 如下圖所示:
header 有很多,比較難以記憶,我們也按照Fidder那樣把header進行分類,這樣比較清晰也容易記憶。
10、Cache頭域
if-Modified-Since
作用:把瀏覽器端混村頁面最后修改時間發送到服務器去,服務器會把這個時間與服務器上實際文件的最后修改時間進行對比。如果時間一直,那么就返回304,客戶端就直接使用本地緩存文件。如果時間不一致,就會返回304,客戶端就直接使用本地緩存文件。如果時間不一致,就會返回200和新的文件內容。客戶端接到之后,會丟棄舊文件,把新文件緩存起來,並顯示在瀏覽器中。
例如:if-Modified-Since:Thu,09 Fed 2012 09:07:57 GMT
實例如下圖
If-None-Match
作用:If-None-Match和Etag一起工作,工作原理是在HTTP Reponse中添加ETag信息。當用戶再次請求該資源時,將在HTTP Request中加入If-None-Match信息(ETag的值)。如果服務器驗證資源的ETag沒有改變(該資源沒有更新),將返回一個304狀態告訴客戶端使用本地緩存文件。否則將返回200狀態和新的資源和ETag.使用這樣的機制將提高網站的性能
例如:If-None-Math:"03f2b33c0bfcc1:0"
實例如下圖
pragma
作用:防止頁面被緩存,在HTTP/1.1版本中,它和Cache-Control:no-cache作用一模一樣
pargma只有一個用法,例如:pragma:no-cache
注意:在HTTP/1.0版本中,只實現了Pragema:no-cache,沒有實現Cache-Control
Cache-Control
作用:這個是非常重要的規則。這個用了指定Request-Request遵循的緩存機制。各個指令含義如下
cache-Control:public 可以被任何緩存所緩存()
cache-Control:private 內容只和緩存到私有緩存中
cache-Control:no-cache 所有內容都不會被緩存
還有其他的一些用法,我還沒搞懂其中的意思,請大家參考其他資料
11、Clien頭域
Accept
作用:瀏覽器可以接受的媒體類型
例如:Accept:text/html 代表瀏覽器可以接受服務器回發的類型為text/html 也就是我們常說的html文檔。
如果服務器無法返回text/html類型的數據,服務器應該返回一個406錯誤(non acceptable)
通配符*代表任意類型
例如 Accept:*/* 代表瀏覽器可以處理所有類型(一般瀏覽器發給服務器都是發這個)
Accept-Encoding
作用:瀏覽器申明自己接受的編碼方式,通常指定壓縮方法,是否支持壓縮,支持申明壓縮方法(gzip,deflate),(注意:這不是只字符編碼);
例如:Accept-Encoing:gzip,deflate
Accept-Lanaguage
作用:瀏覽器申明自己接受的語言
語言跟字符集的區別:中文是語言,中文有多種字符集,比如big5,gb2312,gbk等等
例如:Accept-language:en-us
User-Agent
作用:告訴HTTP服務器,客戶端使用的操作系統和瀏覽器的名稱和版本。
我們上網登錄論壇的時候,往往會看到一些歡迎信息,其中列出了你的操作系統的名稱和版本,你所使用的瀏覽器的名稱和版本,這往往讓很多人感到神奇,實際上,服務器應用程序就是Use-Agent這個請求報頭域中獲取這些信息User-Agent請求報頭域允許客戶端將它的操作系統、瀏覽器和其他屬性告訴服務器。
例如:Use-Agent:Mozilla/4.0(compatible;MSIE 8.0;Windows NT 5.1;Trident/4.0;CIBA;.NET CLR 3.04506.2152;.Net CLR 3.5.30729;.NET4.0c;InfoPath.2;.NET4.0E)
Accept-Charset
作用:瀏覽器申明自己接受的字符集,這就是本文前面介紹的各種字符集和字符編碼,如gb2312,utf-8(通常我們說Charset包括了相應的字符編碼方案);
12、Cookie/Login頭域
Cookie:
作用:最重要的header,將cookie的值發送給HTTP服務器
13、Entity頭域
Content-Length
作用:發送給HTTP服務器數據的長度。
例如:Content-Length:38
Content-Type
作用:內容類型
例如:Content-Type:application/x-www-form-urlencoded
14、Miscellaneous頭域
Referer:
作用:提供了Request的上下文信息的服務器,告訴服務器我是從哪哥連接過來的,比如從我主頁上鏈接到一個朋友那里,她的服務器就能夠從HTTP Referer中統計出有多少用戶點擊我主頁上的鏈接訪問他的網站。
例如:Referer:http://translate.google.cn/?h1=zh-cn&tab=wT
15、Transport頭域
Connetion
例如:Connection:Keep-alive 當一個網頁打開完成后,客戶端和服務器之間用於傳輸HTTP數據的TCP鏈接不會關閉,如果客戶端再次訪問這個服務器上的網頁,會繼續使用這一條已經建立的鏈接
例如:Connetion:close 代表一個Request完成后,客戶端和服務器之間用於傳輸HTTP數據的TCP鏈接會關閉,當客戶端再次發送Request,需要重新建立TCP鏈接。
Host(發送請求時,根報頭域是必需的)
作用:請求報頭域主要用於指定被請求資源的Internt主機和端口號,它通常從HTTP URL中提取出來的
例如:我們在瀏覽器中輸入:http://www.guet.edu.cn/index.html
瀏覽器發送的請求信息中,就包含Host請求報頭域,如下:
Host:http:/www.guet.edu.cn
此處使用缺省端口號80,若指定了端口號,則變成了:host:指定端口號
16、Http Response header
同樣的使用Fiddler查看Response header,點擊Inpeactors tab-> Reponse Tab-> headers 如下圖所示
我們也按照Fiddler那樣把header進行分類,這樣比較清晰也容易記憶。
17、Cache頭域
Date
作用:生成消息的具體時間和日期
例如:Date:Sat,11 Feb 2012 11:35:14 GMT
Expires
作用:瀏覽器會在指定過期內使用本地緩存
例如:Expires:tue,08 Feb 2022 11:35:14 GMT
Vary
作用:
例如:Vary:Accept-Encoding
18、Cooke/login頭域
P3P
作用:用於跨域設置Cookie,這樣可以解決iframe跨域訪問Cookie的問題
例如:P3P:CP=CURa ADMa DEVa PSA p
Set-Cookie
作用:非常重要的header,用於把cookie發送到客戶端瀏覽器,每一個寫入cookie都會生成一個Set-Cookie.
例如:Set-Cookie:sc=4c31223a;path=/;domain=.acookie.taobao.com