HTTP請求頭詳解


原文:http://www.67bar.com/archives/1229

HTTP由兩部分組成:請求和響應。當你在Web瀏覽器中輸入一個URL時,瀏覽器將根據你的要求創建並發送請求,該請求包含所輸入的URL以及一些與瀏覽器本身相關的信息。當服務器收到這個請求時將返回一個響應,該響應包括與該請求相關的信息以及位於指定URL(如果有的話)的數據。直到瀏覽器解析該響應並顯示出網頁(或其他資源)為止。

HTTP請求

HTTP請求的格式如下所示:

<request-line>
<headers>
<blank line>
[<request-body>]

在HTTP請求中,第一行必須是一個請求行(request line),用來說明請求類型、要訪問的資源以及使用的HTTP版本。

緊接着是一個首部(header)小節,用來說明服務器要使用的附加信息。

在首部之后是一個空行,再此之后可以添加任意的其他數據[稱之為主體(body)]。

在HTTP中,定義了多種請求類型,通常我們關心的只有GET請求和POST請求。只要在Web瀏覽器上輸入一個URL,瀏覽器就將基於該URL向服務器發送一個GET請求,以告訴服務器獲取並返回什么資源。對於www.baidu.com的GET請求如下所示:

GET / HTTP/1.1
Host: www.baidu.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6)
Gecko/20050225 Firefox/1.0.1
Connection: Keep-Alive

請求行的第一部分說明了該請求是GET請求。該行的第二部分是一個斜杠(/),用來說明請求的是該域名的根目錄。該行的最后一部分說明使用的是HTTP 1.1版本(另一個可選項是1.0)。那么請求發到哪里去呢?這就是第二行的內容。

第2行是請求的第一個首部,HOST。首部HOST將指出請求的目的地。結合HOST和上一行中的斜杠(/),可以通知服務器請求的是www.baidu.com/(HTTP 1.1才需要使用首部HOST,而原來的1.0版本則不需要使用)。第三行中包含的是首部User-Agent,服務器端和客戶端腳本都能夠訪問它,它是瀏覽器類型檢測邏輯的重要基礎。該信息由你使用的瀏覽器來定義(在本例中是Firefox 1.0.1),並且在每個請求中將自動發送。最后一行是首部Connection,通常將瀏覽器操作設置為Keep-Alive(當然也可以設置為其他值)。注意,在最后一個首部之后有一個空行。即使不存在請求主體,這個空行也是必需的。

要發送GET請求的參數,則必須將這些額外的信息附在URL本身的后面。其格式類似於:

URL ? name1=value1&name2=value2&..&nameN=valueN

該信息稱之為查詢字符串(query string),它將會復制在HTTP請求的請求行中,如下所示:

GET /books/?name=Professional%20Ajax HTTP/1.1
Host: www.baidu.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6)
Gecko/20050225 Firefox/1.0.1
Connection: Keep-Alive

注意,為了將文本“Professional Ajax”作為URL的參數,需要編碼處理其內容,將空格替換成%20,這稱為URL編碼(URL encoding),常用於HTTP的許多地方(JavaScript提供了內建的函數來處理URL編碼和解碼)。“名稱—值”(name—value)對用 & 隔開。絕大部分的服務器端技術能夠自動對請求主體進行解碼,並為這些值的訪問提供一些邏輯方式。當然,如何使用這些數據還是由服務器決定的。

另一方面,POST請求在請求主體中為服務器提供了一些附加的信息。通常,當填寫一個在線表單並提交它時,這些填入的數據將以POST請求的方式發送給服務器。

以下就是一個典型的POST請求:

POST / HTTP/1.1
Host: www.baidu.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6)
Gecko/20050225 Firefox/1.0.1
Content-Type: application/x-www-form-urlencoded
Content-Length: 40
Connection: Keep-Alive

name=Professional%20Ajax&publisher=Wiley

從上面可以發現, POST請求和GET請求之間有一些區別。首先,請求行開始處的GET改為了POST,以表示不同的請求類型。你會發現首部Host和User-Agent仍然存在,在后面有兩個新行。其中首部Content-Type說明了請求主體的內容是如何編碼的。瀏覽器始終以application/ x-www-form- urlencoded的格式編碼來傳送數據,這是針對簡單URL編碼的MIME類型。首部Content-Length說明了請求主體的字節數。在首部Connection后是一個空行,再后面就是請求主體。與大多數瀏覽器的POST請求一樣,這是以簡單的“名稱—值”對的形式給出的,其中name是Professional Ajax,publisher是Wiley。你可以以同樣的格式來組織URL的查詢字符串參數。

下面是一些最常見的請求頭:

    Accept:瀏覽器可接受的MIME類型。
    Accept – Charset:瀏覽器可接受的字符集。
    Accept – Encoding:瀏覽器能夠進行解碼的數據編碼方式,比如gzip。Servlet能夠向支持gzip的瀏覽器返回經gzip編碼的HTML頁面。許多情形下這可以

減少5到10倍的下載時間。

    Accept – Language:瀏覽器所希望的語言種類,當服務器能夠提供一種以上的語言版本時要用到。
    Authorization:授權信息,通常出現在對服務器發送的WWW – Authenticate頭的應答中。
    Connection:表示是否需要持久連接。如果Servlet看到這里的值為“Keep – Alive”,或者看到請求使用的是HTTP 1.1(HTTP 1.1默認進行持久連接),它就可以利用持久連接的優點,當頁面包含多個元素時(例如Applet,圖片),顯著地減少下載所需要的時間。要實現這一點,Servlet需要在應答中發送一個Content – Length頭,最簡單的實現方法是:先把內容寫入ByteArrayOutputStream,然后在正式寫出內容之前計算它的大小。
    Content – Length:表示請求消息正文的長度。
    Cookie:這是最重要的請求頭信息之一,參見后面《Cookie處理》一章中的討論。
    From:請求發送者的email地址,由一些特殊的Web客戶程序使用,瀏覽器不會用到它。
    Host:初始URL中的主機和端口。
    If – Modified – Since:只有當所請求的內容在指定的日期之后又經過修改才返回它,否則返回304“Not Modified”應答。
    Pragma:指定“no – cache”值表示服務器必須返回一個刷新后的文檔,即使它是代理服務器而且已經有了頁面的本地拷貝。
    Referer:包含一個URL,用戶從該URL代表的頁面出發訪問當前請求的頁面。
    User – Agent:瀏覽器類型,如果Servlet返回的內容與瀏覽器類型有關則該值非常有用。
    UA – Pixels,UA – Color,UA – OS,UA – CPU:由某些版本的IE瀏覽器所發送的非標准的請求頭,表示屏幕大小、顏色深度、操作系統和CPU類型。

 

HTTP響應

如下所示,HTTP響應的格式與請求的格式十分類似:

<status-line>
<headers>
<blank line>
[<response-body>]

正如你所見,在響應中唯一真正的區別在於第一行中用狀態信息代替了請求信息。狀態行(status line)通過提供一個狀態碼來說明所請求的資源情況。以下就是一個HTTP響應的例子:

HTTP/1.1 200 OK
Date: Sat, 31 Dec 2005 23:59:59 GMT
Content-Type: text/html;charset=ISO-8859-1
Content-Length: 122
<html>
  <head>
    <title>Wrox Homepage</title>
  </head>
  <body>
    <!– body goes here –>
  </body>
</html>

在本例中,狀態行給出的HTTP狀態代碼是200,以及消息OK。狀態行始終包含的是狀態碼和相應的簡短消息,以避免混亂。最常用的狀態碼有:

◆200 (OK): 找到了該資源,並且一切正常。
◆304 (NOT MODIFIED): 該資源在上次請求之后沒有任何修改。這通常用於瀏覽器的緩存機制。
◆401 (UNAUTHORIZED): 客戶端無權訪問該資源。這通常會使得瀏覽器要求用戶輸入用戶名和密碼,以登錄到服務器。
◆403 (FORBIDDEN): 客戶端未能獲得授權。這通常是在401之后輸入了不正確的用戶名或密碼。
◆404 (NOT FOUND): 在指定的位置不存在所申請的資源。

在狀態行之后是一些首部。通常,服務器會返回一個名為Data的首部,用來說明響應生成的日期和時間(服務器通常還會返回一些關於其自身的信息,盡管並非是必需的)。接下來的兩個首部大家應該熟悉,就是與POST請求中一樣的Content-Type和Content-Length。在本例中,首部Content-Type指定了MIME類型HTML(text/html),其編碼類型是ISO-8859-1(這是針對美國英語資源的編碼標准)。響應主體所包含的就是所請求資源的HTML源文件(盡管還可能包含純文本或其他資源類型的二進制數據)。瀏覽器將把這些數據顯示給用戶。

注意,這里並沒有指明針對該響應的請求類型,不過這對於服務器並不重要。客戶端知道每種類型的請求將返回什么類型的數據,並決定如何使用這些數據。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM