1. TCP保活的必要性
1) 很多防火牆等對於空閑socket自動關閉
2) 對於非正常斷開, 服務器並不能檢測到. 為了回收資源, 必須提供一種檢測機制.
2. 導致TCP斷連的因素
如果網絡正常, socket也通過close操作來進行優雅的關閉, 那么一切完美. 可是有很多情況, 比如網線故障, 客戶端一側突然斷電或者崩潰等等, 這些情況server並不能正常檢測到連接的斷開.
3. 保活的兩種方式:
1) 應用層面的心跳機制
自定義心跳消息頭. 一般客戶端主動發送, 服務器接收后進行回應(也可以不回應). 這里不進行詳述.
PS: 有人從軟件的功能角度列出第三種方式, 就是通過第三方軟件來進行探測, 確定連接的有效性. 這種方式局限性很大, 而且不屬於軟件內部的功能實現. 不進行討論.
2) TCP協議自帶的保活功能
打開keep-alive功能即可. 具體屬性也可以通過API設定.
4. 兩種方式的優劣性
TCP協議自帶的保活功能, 使用起來簡單, 減少了應用層代碼的復雜度. 推測也會更節省流量, 因為一般來說應用層的數據傳輸到協議層時都會被加上額外的包頭包尾. 由TCP協議提供的檢活, 其發的探測包, 理論上實現的會更精妙(用更少的字節完成更多的目標), 耗費更少的流量.
由應用自己實現的應用層的心跳, 為心跳消息額外定義一個消息類型就可以了. 就是應用正常的消息包, 只是這個包特殊點, 專門用來檢活而已, 通常比較小, 可能只有消息頭就可以了, 除非需要額外的信息.
應用層心跳的好處我個人的理解有兩點:
一是比較靈活, 因為協議層的心跳只能提供最純粹的檢活功能, 但是應用層自己可以隨意控制, 包括協議可能提供的是秒級的, 但是你想做成毫秒級的都任意(雖然實際幾乎不會有這種時間級別的心跳), 包里還甚至可以攜帶額外的信息, 這些都是靈活之處.
二是通用, 應用層的心跳不依賴協議. 如果有一天不用TCP要改為UDP了, 協議層不提供心跳機制了, 但是你應用層的心跳依舊是通用的, 可能只需要做少許改動就可以繼續使用.
應用層心跳的不好的地方也很顯而易見, 增加開發工作量, 由於應用特定的網絡框架, 還可能很增加代碼結構的復雜度. 再就是根據上面的推測, 應用層心跳的流量消耗還是更大的, 畢竟這本質上還是個普通的數據包.
5. 到底選用那種心跳方式?
優劣點第4節已經進行了闡述, 因此如果能確定你們更換協議的可能性非常小, 同時只是需要檢活的功能, 那么用協議自帶的就絕對OK了, 使用簡單而且高效. 有些自負的人總喜歡用自己搞的, 來代替成熟協議自帶的東西, 代替系統內核提供的東西, 其實往往你應用層實現的東西, 都是更拙劣的. 網上看了一些關於協議的Keep-alive不靠譜的說法, 也都比較空想和想當然, 都沒有拿出任何事實論據或實驗數據. 這點大家有見解, 歡迎交流哈~
6. 類Unix平台如何使用Keep-alive
keepalive默認是關閉的, 因為雖然流量極小, 畢竟是開銷. 因此需要用戶手動開啟. 有兩種方式開啟.
1) 在代碼里針對每個socket進行單獨設定, 使用起來靈活.
除了keepAlive 開關, 還有keepIdle, keepInterval, keepCount 3個屬性, 使用簡單, 如下:
- int keepAlive = 1; // 開啟keepalive屬性. 缺省值: 0(關閉)
- int keepIdle = 60; // 如果在60秒內沒有任何數據交互,則進行探測. 缺省值:7200(s)
- int keepInterval = 5; // 探測時發探測包的時間間隔為5秒. 缺省值:75(s)
- int keepCount = 2; // 探測重試的次數. 全部超時則認定連接失效..缺省值:9(次)
- setsockopt(s, SOL_SOCKET, SO_KEEPALIVE, (void*)&keepAlive, sizeof(keepAlive));
- setsockopt(s, SOL_TCP, TCP_KEEPIDLE, (void*)&keepIdle, sizeof(keepIdle));
- setsockopt(s, SOL_TCP, TCP_KEEPINTVL, (void*)&keepInterval, sizeof(keepInterval));
- setsockopt(s, SOL_TCP, TCP_KEEPCNT, (void*)&keepCount, sizeof(keepCount));
使用時需要#include <netinet/tcp.h>, 否則SOL_TCP和TCP_KEEPIDLE等3個宏找不到.
ps: 忍不住吐槽一下, 網上大量毫不負責的轉載, 千篇一律的搜索結果, 很多人根本都沒進行過任何驗證吧. 為了找這么個頭文件都費了不小的事. 大多數帖子里的說的都是不可用的.
2) 修改配置文件, 對整個系統所有的socket有效.
我們可以用cat命令查看到系統中這幾個默認的值.
#cat /proc/sys/net/ipv4/tcp_keepalive_time 7200
#cat /proc/sys/net/ipv4/tcp_keepalive_intvl 75
#cat /proc/sys/net/ipv4/tcp_keepalive_probes 9
修改它們:
#echo 60 > /proc/sys/net/ipv4/tcp_keepalive_time
#echo 5 > /proc/sys/net/ipv4/tcp_keepalive_intvl
#echo 3 > /proc/sys/net/ipv4/tcp_keepalive_probes
鏈接推薦: