從瀏覽器地址欄輸入url到顯示頁面的步驟
最近在看面試題,發現了一道非常經典且高頻的題目,它是每個程序員都應該熟知的原理。
- 瀏覽器根據請求的
URL交給DNS進行域名解析,找到真實IP地址,向服務器發起請求; - 服務器交給后台處理完成后返回數據,瀏覽器接收文件(
HTML、CSS、JS、images等); - 瀏覽器對加載到的資源(
HTML、CSS、JS、images等)進行語法解析,建立相應的內部數據結構(如HTML的DOM); - 載入解析到的資源文件,渲染頁面,完成。
-
在瀏覽器地址欄輸入
URL -
瀏覽器查看*緩存**,如果請求資源在緩存中並且新鮮,跳轉到轉碼步驟
-
如果資源未緩存,發起新請求;
-
如果已緩存,檢驗是否足夠新鮮,足夠新鮮直接提供給客戶端,否則與服務器進行驗證;
-
檢驗新鮮通常有兩個
HTTP頭進行控制Expires和Cache-Control:- HTTP1.0 提供
Expires,值為一個絕對時間表示緩存新鮮日期 - HTTP1.1 增加了
Cache-Control:max-age=,值為以秒為單位的最大新鮮時間
- HTTP1.0 提供
-
-
瀏覽器解析
URL獲取協議,主機、端口、path -
瀏覽器組裝一個
HTTP(GET)請求報文 -
瀏覽器獲取主機
IP地址,過程如下:- 瀏覽器緩存
- 本機緩存
- hosts文件
- 路由器緩存
- ISP DNS 緩存
- DNS 遞歸查詢(可能存在負載均衡導致每次IP不一樣)
-
打開一個
socket與目標IP地址,端口建立TCP鏈接,三次握手如下:- 客戶端發送一個TCP的
SYN=1,Seq=X的包到服務器端口 - 服務器發回
SYN=1,ACK=X+1,Seq=Y的響應包 - 客戶端發送
ACK=Y+1,Seq=Z
- 客戶端發送一個TCP的
-
TCP鏈接建立后發送HTTP請求 -
服務器接受請求並解析,將請求轉發到服務程序,如虛擬主機使用
HTTP Host頭部判斷請求的服務器程序 -
服務器檢查HTTP請求頭是否包含緩存驗證信息,如果驗證緩存新鮮,返回304等對應狀態碼
-
處理程序讀取完整請求並准備HTTP響應,可能需要查詢數據庫等操作
-
服務器將響應報文通過
TCP連接發送回瀏覽器 -
瀏覽器接收HTTP響應,然后根據情況選擇關閉TCP連接或者保留重用,關閉TCP連接的四次握手如下:
- 主動方發送
Fin=1,Ack=Z,Seq=X報文 - 被動方發送
Ack=X+1,Seq=Z報文 - 被動方發送
Fin=1,Ack=X,Seq=Y報文 - 主動方發送
Ack=Y,Seq=X報文
- 主動方發送
-
瀏覽器檢查響應狀態碼:是否為 1xx,3xx,4xx,5xx,這些情況處理與2xx不同
-
如果資源可緩存,進行緩存
-
對響應進行解碼(比如gzip壓縮)
-
根據資源類型決定如何處理(假設資源為HTML文檔)
-
解析HTML文檔,構建DOM樹,下載資源,構造CSSOM樹,執行js腳本,這些操作沒有嚴格的先后順序,以下分別解釋:
-
構建DOM樹:
- Tokenizing:根據HTML規范將字符流解析為標記
- Lexing:詞法分析將標記轉換為對象並定義屬性和規則
- DOM construction:根據HTML標記關系將對象組成DOM樹
-
解析過程中遇到圖片、樣式表、js文件,啟動下載
-
構建CSSOM樹
- Tokenizing:字符流轉換為標記流
- Node:根據標記創建節點
- CSSOM:節點創建CSSOM樹
-
根據DOM樹和CSSOM樹構建渲染樹
- 從DOM樹的根節點遍歷所有可見節點,不可見節點包括:
1)script,meta這樣本身不可見的標簽。2)被css隱藏的節點,如display: none - 對每一個可見節點,找到恰當的CSSOM規則並應用
- 發布可視節點的內容和計算樣式
- 從DOM樹的根節點遍歷所有可見節點,不可見節點包括:
-
js解析
- 瀏覽器創建
Document對象並解析HTML,將解析到的元素和文本節點添加到文檔中,此時document.readystate為loading - HTML解析器遇到沒有
async和defer的script時,將他們添加到文檔中,然后執行行內或外部腳本。這些腳本會同步執行,並且在腳本下載和執行時解析器會暫停。這樣就可以用document.write()把文本插入到輸入流中。同步腳本經常簡單定義函數和注冊事件處理程序,他們可以遍歷和操作script和他們之前的文檔內容 - 當解析器遇到設置了
async屬性的script時,開始下載腳本並繼續解析文檔。腳本會在它下載完成后盡快執行,但是解析器不會停下來等它下載。異步腳本禁止使用document.write(),它們可以訪問自己script和之前的文檔元素 - 當文檔完成解析,
document.readState變成interactive - 所有
defer腳本會按照在文檔出現的順序執行,延遲腳本能訪問完整文檔樹,禁止使用document.write() - 瀏覽器在Document對象上觸發DOMContentLoaded事件
- 此時文檔完全解析完成,瀏覽器可能還在等待如圖片等內容加載,等這些內容完成載入並且所有異步腳本完成載入和執行,
document.readState變為complete,window觸發load事件
- 瀏覽器創建
-
顯示頁面(HTML解析過程中會逐步顯示頁面)
- 從瀏覽器接收
url到開啟網絡請求線程(這一部分可以展開瀏覽器的機制以及進程與線程之間的關系) - 開啟網絡線程到發出一個完整的
HTTP請求(這一部分涉及到dns查詢,TCP/IP請求,五層因特網協議棧等知識) - 從服務器接收到請求到對應后台接收到請求(這一部分可能涉及到負載均衡,安全攔截以及后台內部的處理等等)
- 后台和前台的
HTTP交互(這一部分包括HTTP頭部、響應碼、報文結構、cookie等知識,可以提下靜態資源的cookie優化,以及編碼解碼,如gzip壓縮等) - 單獨拎出來的緩存問題,
HTTP的緩存(這部分包括http緩存頭部,ETag,catch-control等) - 瀏覽器接收到
HTTP數據包后的解析流程(解析html-詞法分析然后解析成dom樹、解析css生成css規則樹、合並成render樹,然后layout、painting渲染、復合圖層的合成、GPU繪制、外鏈資源的處理、loaded和DOMContentLoaded等) CSS的可視化格式模型(元素的渲染規則,如包含塊,控制框,BFC,IFC等概念)JS引擎解析過程(JS的解釋階段,預處理階段,執行階段生成執行上下文,VO,作用域鏈、回收機制等等)- 其它(可以拓展不同的知識模塊,如跨域,web安全,
hybrid模式等等內容)
