一、Socket是什么
Socket 的中文翻譯過來就是“套接字”。套接字是什么,我們先來看看它的英文含義:插座。
Socket 就像一個電話插座,負責連通兩端的電話,進行點對點通信,讓電話可以進行通信,端口就像插座上的孔,端口不能同時被其他進程占用。而我們建立連接就像把插頭插在這個插座上,創建一個 Socket 實例開始監聽后,這個電話插座就時刻監聽着消息的傳入,誰撥通我這個“IP 地址和端口”,我就接通誰。
實際上,Socket 是在應用層和傳輸層之間的一個抽象層,它把 TCP/IP 層復雜的操作抽象為幾個簡單的接口,供應用層調用實現進程在網絡中的通信。Socket 起源於 UNIX,在 UNIX 一切皆文件的思想下,進程間通信就被冠名為文件描述符(file descriptor)
,Socket 是一種“打開—讀/寫—關閉”模式的實現,服務器和客戶端各自維護一個“文件”,在建立連接打開后,可以向文件寫入內容供對方讀取或者讀取對方內容,通訊結束時關閉文件。
另外我們經常說到的Socket 所在位置如下圖:
二、Socket有哪些類型
世界上有很多種套接字(socket),比如 DARPA Internet 地址(Internet 套接字)、本地節點的路徑名(Unix套接字)、CCITT X.25地址(X.25 套接字)等。我們只介紹第一種套接字——Internet 套接字,它是最具代表性的,也是最經典最常用的。以后我們提及套接字,指的都是 Internet 套接字。
根據數據的傳輸方式,可以將 Internet 套接字分成兩種類型。
流格式套接字(SOCK_STREAM)
流格式套接字(Stream Sockets)也叫“面向連接的套接字”,是一種可靠的、雙向的通信數據流,數據可以准確無誤地到達另一台計算機,如果損壞或丟失,可以重新發送。
其特點:
- 數據在傳輸過程中不會消失;
- 數據是按照順序傳輸的;
- 數據的發送和接收不是同步的(有的教程也稱“不存在數據邊界”)。
可以將 SOCK_STREAM 比喻成一條傳送帶,只要傳送帶本身沒有問題(不會斷網),就能保證數據不丟失;同時,較晚傳送的數據不會先到達,較早傳送的數據不會晚到達,這就保證了數據是按照順序傳遞的。
為什么流格式套接字可以達到高質量的數據傳輸呢?這是因為它使用了 TCP 協議(The Transmission Control Protocol,傳輸控制協議),TCP 協議會控制你的數據按照順序到達並且沒有錯誤。
你也許見過 TCP,是因為你經常聽說“TCP/IP”。TCP 用來確保數據的正確性,IP(Internet Protocol,網絡協議)用來控制數據如何從源頭到達目的地,也就是常說的“路由”。
那么,“數據的發送和接收不同步”該如何理解呢?
假設傳送帶傳送的是水果,接收者需要湊齊 100 個后才能裝袋,但是傳送帶可能把這 100 個水果分批傳送,比如第一批傳送 20 個,第二批傳送 50 個,第三批傳送 30 個。接收者不需要和傳送帶保持同步,只要根據自己的節奏來裝袋即可,不用管傳送帶傳送了幾批,也不用每到一批就裝袋一次,可以等到湊夠了 100 個水果再裝袋。
流格式套接字的內部有一個緩沖區(也就是字符數組),通過 socket 傳輸的數據將保存到這個緩沖區。接收端在收到數據后並不一定立即讀取,只要數據不超過緩沖區的容量,接收端有可能在緩沖區被填滿以后一次性地讀取,也可能分成好幾次讀取。
也就是說,不管數據分幾次傳送過來,接收端只需要根據自己的要求讀取,不用非得在數據到達時立即讀取。傳送端有自己的節奏,接收端也有自己的節奏,它們是不一致的。
流格式套接字有什么實際的應用場景嗎?瀏覽器所使用的 http 協議就基於面向連接的套接字,因為必須要確保數據准確無誤,否則加載的 HTML 將無法解析。
數據報格式套接字(SOCK_DGRAM)
數據報格式套接字(Datagram Sockets)也叫“無連接的套接字”。計算機只管傳輸數據,不作數據校驗,如果數據在傳輸中損壞,或者沒有到達另一台計算機,是沒有辦法補救的。也就是說,數據錯了就錯了,無法重傳。
因為數據報套接字所做的校驗工作少,所以在傳輸效率方面比流格式套接字要高。
有以下特征:
- 強調快速傳輸而非傳輸順序;
- 傳輸的數據可能丟失也可能損毀;
- 限制每次傳輸的數據大小;
- 數據的發送和接收是同步的
眾所周知,速度是快遞行業的生命。用摩托車發往同一地點的兩件包裹無需保證順序,只要以最快的速度交給客戶就行。這種方式存在損壞或丟失的風險,而且包裹大小有一定限制。因此,想要傳遞大量包裹,就得分配發送。
另外,用兩輛摩托車分別發送兩件包裹,那么接收者也需要分兩次接收,所以“數據的發送和接收是同步的”;換句話說,接收次數應該和發送次數相同。
總之,數據報套接字是一種不可靠的、不按順序傳遞的、以追求速度為目的的套接字。
數據報套接字也使用 IP 協議作路由,但是它不使用 TCP 協議,而是使用 UDP 協議(User Datagram Protocol,用戶數據報協議)。
QQ 視頻聊天和語音聊天就使用 SOCK_DGRAM 來傳輸數據,因為首先要保證通信的效率,盡量減小延遲,而數據的正確性是次要的,即使丟失很小的一部分數據,視頻和音頻也可以正常解析,最多出現噪點或雜音,不會對通信質量有實質的影響。
注意:SOCK_DGRAM 沒有想象中的糟糕,不會頻繁的丟失數據,數據錯誤只是小概率事件。
三、Socket通信過程
Socket 保證了不同計算機之間的通信,也就是網絡通信。對於網站,通信模型是服務器與客戶端之間的通信。兩端都建立了一個 Socket 對象,然后通過 Socket 對象對數據進行傳輸。通常服務器處於一個無限循環,等待客戶端的連接。
下面是面向連接的 TCP 時序圖:
客戶端過程
客戶端的過程比較簡單,創建 Socket,連接服務器,將 Socket 與遠程主機連接(注意:只有 TCP 才有“連接”的概念,一些 Socket 比如 UDP、ICMP 和 ARP 沒有“連接”的概念),發送數據,讀取響應數據,直到數據交換完畢,關閉連接,結束 TCP 對話。
import socket import sys if __name__ == '__main__': sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM) # 創建 Socket 連接 sock.connect(('127.0.0.1', 8001)) # 連接服務器 while True: data = input('Please input data:') if not data: break try: sock.sendall(data) except socket.error as e: print('Send Failed...', e) sys.exit(0) print('Send Successfully') res = sock.recv(4096) # 獲取服務器返回的數據,還可以用 recvfrom()、recv_into() 等 print(res) sock.close()
sock.sendall(data)
這里也可用 send() 方法:不同在於 sendall() 在返回前會嘗試發送所有數據,並且成功時返回 None,而 send() 則返回發送的字節數量,失敗時都拋出異常。
服務端過程
服務端先初始化 Socket,建立流式套接字,與本機地址及端口進行綁定,然后通知 TCP,准備好接收連接,調用 accept()
阻塞,等待來自客戶端的連接。如果這時客戶端與服務器建立了連接,客戶端發送數據請求,服務器接收請求並處理請求,然后把響應數據發送給客戶端,客戶端讀取數據,直到數據交換完畢。最后關閉連接,交互結束。
import socket import sys if __name__ == '__main__': sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM) # 創建 Socket 連接(TCP) print('Socket Created') try: sock.bind(('127.0.0.1', 8001)) # 配置 Socket,綁定 IP 地址和端口號 except socket.error as e: print('Bind Failed...', e) sys.exit(0) sock.listen(5) # 設置最大允許連接數,各連接和 Server 的通信遵循 FIFO 原則 while True: # 循環輪詢 Socket 狀態,等待訪問 conn, addr = sock.accept() try: conn.settimeout(10) # 如果請求超過 10 秒沒有完成,就終止操作 # 如果要同時處理多個連接,則下面的語句塊應該用多線程來處理 while True: # 獲得一個連接,然后開始循環處理這個連接發送的信息 data = conn.recv(1024) print('Get value ' + data, end='\n\n') if not data: print('Exit Server', end='\n\n') break conn.sendall('OK') # 返回數據 except socket.timeout: # 建立連接后,該連接在設定的時間內沒有數據發來,就會引發超時 print('Time out') conn.close() # 當一個連接監聽循環退出后,連接可以關掉 sock.close()
conn, addr = sock.accept()
調用 accept()
時,Socket 會進入waiting狀態。客戶端請求連接時,方法建立連接並返回服務器。accept()
返回一個含有兩個元素的元組 (conn, addr)。第一個元素 conn 是新的 Socket 對象,服務器必須通過它與客戶端通信;第二個元素 addr 是客戶端的 IP 地址及端口。
data = conn.recv(1024)
接下來是處理階段,服務器和客戶端通過 send()
和 recv()
通信(傳輸數據)。
服務器調用 send()
,並采用字符串形式向客戶端發送信息,send()
返回已發送的字符個數。
服務器調用 recv()
從客戶端接收信息。調用 recv()
時,服務器必須指定一個整數,它對應於可通過本次方法調用來接收的最大數據量。recv()
在接收數據時會進入blocked狀態,最后返回一個字符串,用它表示收到的數據。如果發送的數據量超過了 recv()
所允許的,數據會被截短。多余的數據將緩沖於接收端,以后調用 recv()
時,會繼續讀剩余的字節,如果有多余的數據會從緩沖區刪除(以及自上次調用 recv()
以來,客戶端可能發送的其它任何數據)。傳輸結束,服務器調用 Socket 的 close()
關閉連接。
四、從 TCP 連接的視角看 Socket 過程
TCP 三次握手的 Socket 過程
- 服務器調用
socket()
、bind()
、listen()
完成初始化后,調用accept()
阻塞等待; - 客戶端 Socket 對象調用
connect()
向服務器發送了一個 SYN 並阻塞; - 服務器完成了第一次握手,即發送 SYN 和 ACK 應答;
- 客戶端收到服務端發送的應答之后,從
connect()
返回,再發送一個 ACK 給服務器; - 服務器 Socket 對象接收客戶端第三次握手 ACK 確認,此時服務端從
accept()
返回,建立連接。
接下來就是兩個端的連接對象互相收發數據。
TCP 四次揮手的 Socket 過程
- 某個應用進程調用
close()
主動關閉,發送一個 FIN; - 另一端接收到 FIN 后被動執行關閉,並發送 ACK 確認;
- 之后被動執行關閉的應用進程調用
close()
關閉 Socket,並也發送一個 FIN; - 接收到這個 FIN 的一端向另一端 ACK 確認。
說明:上面的服務端代碼只有處理完一個客戶端請求才會去處理下一個客戶端的請求,這樣的服務器處理能力很弱,而實際中服務器都需要有並發處理能力,為了達到並發處理,服務器就需要 fork 一個新的進程或者線程去處理請求。
轉自: