從瀏覽器地址欄輸入url到顯示頁面的步驟
最近在看面試題,發現了一道非常經典且高頻的題目,它是每個程序員都應該熟知的原理。
- 瀏覽器根據請求的
URL
交給DNS
進行域名解析,找到真實IP
地址,向服務器發起請求; - 服務器交給后台處理完成后返回數據,瀏覽器接收文件(
HTML
、CSS
、JS
、images
等); - 瀏覽器對加載到的資源(
HTML
、CSS
、JS
、images
等)進行語法解析,建立相應的內部數據結構(如HTML
的DOM
); - 載入解析到的資源文件,渲染頁面,完成。
-
在瀏覽器地址欄輸入
URL
-
瀏覽器查看*緩存**,如果請求資源在緩存中並且新鮮,跳轉到轉碼步驟
-
如果資源未緩存,發起新請求;
-
如果已緩存,檢驗是否足夠新鮮,足夠新鮮直接提供給客戶端,否則與服務器進行驗證;
-
檢驗新鮮通常有兩個
HTTP
頭進行控制Expires
和Cache-Control
:- HTTP1.0 提供
Expires
,值為一個絕對時間表示緩存新鮮日期 - HTTP1.1 增加了
Cache-Control:max-age=
,值為以秒為單位的最大新鮮時間
- HTTP1.0 提供
-
-
瀏覽器解析
URL
獲取協議,主機、端口、path -
瀏覽器組裝一個
HTTP(GET)
請求報文 -
瀏覽器獲取主機
IP
地址,過程如下:- 瀏覽器緩存
- 本機緩存
- hosts文件
- 路由器緩存
- ISP DNS 緩存
- DNS 遞歸查詢(可能存在負載均衡導致每次IP不一樣)
-
打開一個
socket
與目標IP
地址,端口建立TCP
鏈接,三次握手如下:- 客戶端發送一個TCP的
SYN=1,Seq=X
的包到服務器端口 - 服務器發回
SYN=1,ACK=X+1,Seq=Y
的響應包 - 客戶端發送
ACK=Y+1,Seq=Z
- 客戶端發送一個TCP的
-
TCP
鏈接建立后發送HTTP
請求 -
服務器接受請求並解析,將請求轉發到服務程序,如虛擬主機使用
HTTP Host
頭部判斷請求的服務器程序 -
服務器檢查HTTP請求頭是否包含緩存驗證信息,如果驗證緩存新鮮,返回304等對應狀態碼
-
處理程序讀取完整請求並准備HTTP響應,可能需要查詢數據庫等操作
-
服務器將響應報文通過
TCP
連接發送回瀏覽器 -
瀏覽器接收HTTP響應,然后根據情況選擇關閉TCP連接或者保留重用,關閉TCP連接的四次握手如下:
- 主動方發送
Fin=1,Ack=Z,Seq=X
報文 - 被動方發送
Ack=X+1,Seq=Z
報文 - 被動方發送
Fin=1,Ack=X,Seq=Y
報文 - 主動方發送
Ack=Y,Seq=X
報文
- 主動方發送
-
瀏覽器檢查響應狀態碼:是否為 1xx,3xx,4xx,5xx,這些情況處理與2xx不同
-
如果資源可緩存,進行緩存
-
對響應進行解碼(比如gzip壓縮)
-
根據資源類型決定如何處理(假設資源為HTML文檔)
-
解析HTML文檔,構建DOM樹,下載資源,構造CSSOM樹,執行js腳本,這些操作沒有嚴格的先后順序,以下分別解釋:
-
構建DOM樹:
- Tokenizing:根據HTML規范將字符流解析為標記
- Lexing:詞法分析將標記轉換為對象並定義屬性和規則
- DOM construction:根據HTML標記關系將對象組成DOM樹
-
解析過程中遇到圖片、樣式表、js文件,啟動下載
-
構建CSSOM樹
- Tokenizing:字符流轉換為標記流
- Node:根據標記創建節點
- CSSOM:節點創建CSSOM樹
-
根據DOM樹和CSSOM樹構建渲染樹
- 從DOM樹的根節點遍歷所有可見節點,不可見節點包括:
1)script
,meta
這樣本身不可見的標簽。2)被css
隱藏的節點,如display: none
- 對每一個可見節點,找到恰當的CSSOM規則並應用
- 發布可視節點的內容和計算樣式
- 從DOM樹的根節點遍歷所有可見節點,不可見節點包括:
-
js解析
- 瀏覽器創建
Document
對象並解析HTML
,將解析到的元素和文本節點添加到文檔中,此時document.readystate
為loading
- HTML解析器遇到沒有
async
和defer
的script
時,將他們添加到文檔中,然后執行行內或外部腳本。這些腳本會同步執行,並且在腳本下載和執行時解析器會暫停。這樣就可以用document.write()把文本插入到輸入流中。同步腳本經常簡單定義函數和注冊事件處理程序,他們可以遍歷和操作script和他們之前的文檔內容 - 當解析器遇到設置了
async
屬性的script
時,開始下載腳本並繼續解析文檔。腳本會在它下載完成后盡快執行,但是解析器不會停下來等它下載。異步腳本禁止使用document.write(),它們可以訪問自己script和之前的文檔元素 - 當文檔完成解析,
document.readState
變成interactive
- 所有
defer
腳本會按照在文檔出現的順序執行,延遲腳本能訪問完整文檔樹,禁止使用document.write()
- 瀏覽器在Document對象上觸發DOMContentLoaded事件
- 此時文檔完全解析完成,瀏覽器可能還在等待如圖片等內容加載,等這些內容完成載入並且所有異步腳本完成載入和執行,
document.readState
變為complete
,window
觸發load
事件
- 瀏覽器創建
-
顯示頁面(HTML解析過程中會逐步顯示頁面)
- 從瀏覽器接收
url
到開啟網絡請求線程(這一部分可以展開瀏覽器的機制以及進程與線程之間的關系) - 開啟網絡線程到發出一個完整的
HTTP
請求(這一部分涉及到dns
查詢,TCP/IP
請求,五層因特網協議棧等知識) - 從服務器接收到請求到對應后台接收到請求(這一部分可能涉及到負載均衡,安全攔截以及后台內部的處理等等)
- 后台和前台的
HTTP
交互(這一部分包括HTTP
頭部、響應碼、報文結構、cookie
等知識,可以提下靜態資源的cookie
優化,以及編碼解碼,如gzip
壓縮等) - 單獨拎出來的緩存問題,
HTTP
的緩存(這部分包括http
緩存頭部,ETag
,catch-control
等) - 瀏覽器接收到
HTTP
數據包后的解析流程(解析html
-詞法分析然后解析成dom
樹、解析css
生成css
規則樹、合並成render
樹,然后layout
、painting
渲染、復合圖層的合成、GPU
繪制、外鏈資源的處理、loaded
和DOMContentLoaded
等) CSS
的可視化格式模型(元素的渲染規則,如包含塊,控制框,BFC
,IFC
等概念)JS
引擎解析過程(JS
的解釋階段,預處理階段,執行階段生成執行上下文,VO
,作用域鏈、回收機制等等)- 其它(可以拓展不同的知識模塊,如跨域,web安全,
hybrid
模式等等內容)