開始了新篇章:Linux網絡編程。
基礎知識:
套接字概念
Socket本身有"插座"的意思,在Linux環境下,用於表示進程間網絡通信的特殊文件類型。本質為內核借助緩沖區形成的偽文件。
既然是文件,那么理所當然的,我們可以使用文件描述符引用套接字。與管道類似的,Linux系統將其封裝成文件的目的是為了統一接口,使得讀寫套接字和讀寫文件的操作一致。區別是管道主要應用於本地進程間通信,而套接字多應用於網絡進程間數據的傳遞。
套接字的內核實現較為復雜,不宜在學習初期深入學習。
在TCP/IP協議中,"IP地址+TCP或UDP端口號"唯一標識網絡通訊中的一個進程。"IP地址+端口號"就對應一個socket。欲建立連接的兩個進程各自有一個socket來標識,那么這兩個socket組成的socket pair就唯一標識一個連接。因此可以用Socket來描述網絡連接的一對一關系。
套接字通信原理如下圖所示:
套接字通訊原理示意
在網絡通信中,套接字一定是成對出現的。一端的發送緩沖區對應對端的接收緩沖區。我們使用同一個文件描述符收發送緩沖區和接收緩沖區。即:一個socket文件描述符對應一個接收端和發送端。
TCP/IP協議最早在BSD UNIX上實現,為TCP/IP協議設計的應用層編程接口稱為socket API。本章的主要內容是socket API,主要介紹TCP協議的函數接口,最后介紹UDP協議和UNIX Domain Socket的函數接口。
網絡編程接口
網絡字節序
我們已經知道,內存中的多字節數據相對於內存地址有大端和小端之分,磁盤文件中的多字節數據相對於文件中的偏移地址也有大端小端之分。網絡數據流同樣有大端小端之分,那么如何定義網絡數據流的地址呢?發送主機通常將發送緩沖區中的數據按內存地址從低到高的順序發出,接收主機把從網絡上接到的字節依次保存在接收緩沖區中,也是按內存地址從低到高的順序保存,因此,網絡數據流的地址應這樣規定:先發出的數據是低地址,后發出的數據是高地址。
TCP/IP協議規定,網絡數據流應采用大端字節序,即低地址高字節。例如上一節的UDP段格式,地址0-1是16位的源端口號,如果這個端口號是1000(0x3e8),則地址0是0x03,地址1是0xe8,也就是先發0x03,再發0xe8,這16位在發送主機的緩沖區中也應該是低地址存0x03,高地址存0xe8。但是,如果發送主機是小端字節序的,這16位被解釋成0xe803,而不是1000。因此,發送主機把1000填到發送緩沖區之前需要做字節序的轉換。同樣地,接收主機如果是小端字節序的,接到16位的源端口號也要做字節序的轉換。如果主機是大端字節序的,發送和接收都不需要做轉換。同理,32位的IP地址也要考慮網絡字節序和主機字節序的問題。
為使網絡程序具有可移植性,使同樣的C代碼在大端和小端計算機上編譯后都能正常運行,可以調用以下庫函數做網絡字節序和主機字節序的轉換。
Htonl(小端轉大端)函數
#include <arpa/inet.h>
uint32_t htonl(uint32_t hostlong); //將主機數轉換成無符號長整型的網絡字節順序。本函數將一個32位數從主機字節順序轉換成網絡字節順序。小端轉大端
uint16_t htons(uint16_t hostshort);// htons是將整型變量從主機字節順序轉變成網絡字節順序,就是整數在地址空間存儲方式變為高位字節存放在內存的低地址處。
uint32_t ntohl(uint32_t netlong);
uint16_t ntohs(uint16_t netshort);
h表示host,n表示network,l表示32位長整數,s表示16位短整數。
如果主機是小端字節序,這些函數將參數做相應的大小端轉換然后返回(小端轉大端),如果主機是大端字節序,這些函數不做轉換,將參數原封不動地返回。
IP地址轉換函數(inet_pton/ inet_ntop)
#include <arpa/inet.h>
int inet_pton(int af, const char *src, void *dst);// 該函數將字符串src轉換為網絡地址結構。然后將網絡地址結構復制到dst。
const char *inet_ntop(int af, const void *src, char *dst, socklen_t size);
支持IPv4和IPv;可重入函數;其中inet_pton和inet_ntop不僅可以轉換IPv4的in_addr,還可以轉換IPv6的in6_addr。因此函數接口是void *addrptr。
sockaddr數據結構
strcut sockaddr 很多網絡編程函數誕生早於IPv4協議,那時候都使用的是sockaddr結構體,為了向前兼容,現在sockaddr退化成了(void *)的作用,傳遞一個地址給函數,至於這個函數是sockaddr_in還是sockaddr_in6,由地址族確定,然后函數內部再強制類型轉化為所需的地址類型。
sockaddr數據結構
struct sockaddr {
sa_family_t sa_family; /* address family, AF_xxx */
char sa_data[14]; /* 14 bytes of protocol address */
};
使用 sudo grep -r "struct sockaddr_in {" /usr 命令可查看到struct sockaddr_in結構體的定義。一般其默認的存儲位置:/usr/include/linux/in.h 文件中。
struct sockaddr_in {
__kernel_sa_family_t sin_family; /* Address family */ 地址結構類型
__be16 sin_port; /* Port number */ 端口號
struct in_addr sin_addr; /* Internet address */ IP地址
/* Pad to size of `struct sockaddr'. */
unsigned char __pad[__SOCK_SIZE__ - sizeof(short int) -
sizeof(unsigned short int) - sizeof(struct in_addr)];
};
struct in_addr { /* Internet address. */
__be32 s_addr;
};
struct sockaddr_in6 {
unsigned short int sin6_family; /* AF_INET6 */
__be16 sin6_port; /* Transport layer port # */
__be32 sin6_flowinfo; /* IPv6 flow information */
struct in6_addr sin6_addr; /* IPv6 address */
__u32 sin6_scope_id; /* scope id (new in RFC2553) */
};
struct in6_addr {
union {
__u8 u6_addr8[16];
__be16 u6_addr16[8];
__be32 u6_addr32[4];
} in6_u;
#define s6_addr in6_u.u6_addr8
#define s6_addr16 in6_u.u6_addr16
#define s6_addr32 in6_u.u6_addr32
};
#define UNIX_PATH_MAX 108
struct sockaddr_un {
__kernel_sa_family_t sun_family; /* AF_UNIX */
char sun_path[UNIX_PATH_MAX]; /* pathname */
};
Pv4和IPv6的地址格式定義在netinet/in.h中,IPv4地址用sockaddr_in結構體表示,包括16位端口號和32位IP地址,IPv6地址用sockaddr_in6結構體表示,包括16位端口號、128位IP地址和一些控制字段。UNIX Domain Socket的地址格式定義在sys/un.h中,用sock-addr_un結構體表示。各種socket地址結構體的開頭都是相同的,前16位表示整個結構體的長度(並不是所有UNIX的實現都有長度字段,如Linux就沒有),后16位表示地址類型。IPv4、IPv6和Unix Domain Socket的地址類型分別定義為常數AF_INET、AF_INET6、AF_UNIX。這樣,只要取得某種sockaddr結構體的首地址,不需要知道具體是哪種類型的sockaddr結構體,就可以根據地址類型字段確定結構體中的內容。因此,socket API可以接受各種類型的sockaddr結構體指針做參數,例如bind、accept、connect等函數,這些函數的參數應該設計成void *類型以便接受各種類型的指針,但是sock API的實現早於ANSI C標准化,那時還沒有void *類型,因此這些函數的參數都用struct sockaddr *類型表示,在傳遞參數之前要強制類型轉換一下,例如:
struct sockaddr_in servaddr;
bind(listen_fd, (struct sockaddr *)&servaddr, sizeof(servaddr)); /* initialize servaddr */
網絡套接字函數
socket模型創建流程圖
socket API
socket函數
#include <sys/types.h> /* See NOTES */
#include <sys/socket.h>
int socket(int domain, int type, int protocol);
作用:創建一個socket
參數:
domain:
AF_INET 這是大多數用來產生socket的協議,使用TCP或UDP來傳輸,用IPv4的地址
AF_INET6 與上面類似,不過是來用IPv6的地址
AF_UNIX 本地協議,使用在Unix和Linux系統上,一般都是當客戶端和服務器在同一台及其上的時候使用
type:
SOCK_STREAM 這個協議是按照順序的、可靠的、數據完整的基於字節流的連接。這是一個使用最多的socket類型,這個socket是使用TCP來進行傳輸。
SOCK_DGRAM 這個協議是無連接的、固定長度的傳輸調用。該協議是不可靠的,使用UDP來進行它的連接。
SOCK_SEQPACKET該協議是雙線路的、可靠的連接,發送固定長度的數據包進行傳輸。必須把這個包完整的接受才能進行讀取。
SOCK_RAW socket類型提供單一的網絡訪問,這個socket類型使用ICMP公共協議。(ping、traceroute使用該協議)
SOCK_RDM 這個類型是很少使用的,在大部分的操作系統上沒有實現,它是提供給數據鏈路層使用,不保證數據包的順序
protocol:
傳0 表示使用默認協議。
返回值:
成功:返回指向新創建的socket的文件描述符,失敗:返回-1,設置errno
socket()打開一個網絡通訊端口,如果成功的話,就像open()一樣返回一個文件描述符,應用程序可以像讀寫文件一樣用read/write在網絡上收發數據,如果socket()調用出錯則返回-1。對於IPv4,domain參數指定為AF_INET。對於TCP協議,type參數指定為SOCK_STREAM,表示面向流的傳輸協議。如果是UDP協議,則type參數指定為SOCK_DGRAM,表示面向數據報的傳輸協議。protocol參數的介紹從略,指定為0即可。
bind函數
#include <sys/types.h> /* See NOTES */
#include <sys/socket.h>
int bind(int sockfd, const struct sockaddr *addr, socklen_t addrlen);
sockfd:
socket文件描述符
addr:
構造出IP地址加端口號
addrlen:
sizeof(addr)長度
返回值:
成功返回0,失敗返回-1, 設置errno
服務器程序所監聽的網絡地址和端口號通常是固定不變的,客戶端程序得知服務器程序的地址和端口號后就可以向服務器發起連接,因此服務器需要調用bind綁定一個固定的網絡地址和端口號。
bind()的作用是將參數sockfd和addr綁定在一起,使sockfd這個用於網絡通訊的文件描述符監聽addr所描述的地址和端口號。前面講過,struct sockaddr *是一個通用指針類型,addr參數實際上可以接受多種協議的sockaddr結構體,而它們的長度各不相同,所以需要第三個參數addrlen指定結構體的長度。如:
struct sockaddr_in servaddr;
bzero(&servaddr, sizeof(servaddr));
servaddr.sin_family = AF_INET;
servaddr.sin_addr.s_addr = htonl(INADDR_ANY);
servaddr.sin_port = htons(6666);
首先將整個結構體清零,然后設置地址類型為AF_INET,網絡地址為INADDR_ANY,這個宏表示本地的任意IP地址,因為服務器可能有多個網卡,每個網卡也可能綁定多個IP地址,這樣設置可以在所有的IP地址上監聽,直到與某個客戶端建立了連接時才確定下來到底用哪個IP地址,端口號為6666。
listen函數
#include <sys/types.h> /* See NOTES */
#include <sys/socket.h>
int listen(int sockfd, int backlog);
sockfd:
socket文件描述符
backlog:
排隊建立3次握手隊列和剛剛建立3次握手隊列的鏈接數和
查看系統默認backlog
cat /proc/sys/net/ipv4/tcp_max_syn_backlog
典型的服務器程序可以同時服務於多個客戶端,當有客戶端發起連接時,服務器調用的accept()返回並接受這個連接,如果有大量的客戶端發起連接而服務器來不及處理,尚未accept的客戶端就處於連接等待狀態,listen()聲明sockfd處於監聽狀態,並且最多允許有backlog個客戶端處於連接待狀態,如果接收到更多的連接請求就忽略。listen()成功返回0,失敗返回-1。
accept函數
#include <sys/types.h> /* See NOTES */
#include <sys/socket.h>
int accept(int sockfd, struct sockaddr *addr, socklen_t *addrlen);
sockdf:
socket文件描述符
addr:
傳出參數,返回鏈接客戶端地址信息,含IP地址和端口號
addrlen:
傳入傳出參數(值-結果),傳入sizeof(addr)大小,函數返回時返回真正接收到地址結構體的大小
返回值:
成功返回一個新的socket文件描述符,用於和客戶端通信,失敗返回-1,設置errno
三方握手完成后,服務器調用accept()接受連接,如果服務器調用accept()時還沒有客戶端的連接請求,就阻塞等待直到有客戶端連接上來。addr是一個傳出參數,accept()返回時傳出客戶端的地址和端口號。addrlen參數是一個傳入傳出參數(value-result argument),傳入的是調用者提供的緩沖區addr的長度以避免緩沖區溢出問題,傳出的是客戶端地址結構體的實際長度(有可能沒有占滿調用者提供的緩沖區)。如果給addr參數傳NULL,表示不關心客戶端的地址。
我們的服務器程序結構是這樣的:
while (1) {
cliaddr_len = sizeof(cliaddr);
connfd = accept(listenfd, (struct sockaddr *)&cliaddr, &cliaddr_len);
n = read(connfd, buf, MAXLINE);
......
close(connfd);
}
整個是一個while死循環,每次循環處理一個客戶端連接。由於cliaddr_len是傳入傳出參數,每次調用accept()之前應該重新賦初值。accept()的參數listenfd是先前的監聽文件描述符,而accept()的返回值是另外一個文件描述符connfd,之后與客戶端之間就通過這個connfd通訊,最后關閉connfd斷開連接,而不關閉listenfd,再次回到循環開頭listenfd仍然用作accept的參數。accept()成功返回一個文件描述符,出錯返回-1。
connect函數
#include <sys/types.h> /* See NOTES */
#include <sys/socket.h>
int connect(int sockfd, const struct sockaddr *addr, socklen_t addrlen);
sockdf:
socket文件描述符
addr:
傳入參數,指定服務器端地址信息,含IP地址和端口號
addrlen:
傳入參數,傳入sizeof(addr)大小
返回值:
成功返回0,失敗返回-1,設置errno
客戶端需要調用connect()連接服務器,connect和bind的參數形式一致,區別在於bind的參數是自己的地址,而connect的參數是對方的地址。connect()成功返回0,出錯返回-1。
基礎知識是我摘抄的。自己做了一些改動。現在來時實現服務器的創建:將客戶端發來的小寫字符改為大寫字符並傳回顯示到屏幕上。上面已經說了寫服務器程序的一般步驟,現在我針對本題目提煉一下步驟:
1. socket() 建立套接字:int socket(int domain, int type, int protocol);
2. bind() 綁定IP 端口號 (struct sockaddr_in addr 初始化)
int bind(int sockfd, const struct sockaddr *addr, socklen_t addrlen);
這里的sockaddr已廢棄使用,不能直接用sockaddr定義變量,需要用sockaddr_in;但是讓人蛋疼的是這里的類型就是sockaddr,所以我們需要將sockaddr_in強制轉化位sockaddr;socklen_t可以看成int類型的。
3. listen() 指定最大同時發起連接數;
是同時,不是上限。int listen(int sockfd, int backlog);第一個是服務器socket文件描述符
4. accept() 阻塞等待客戶端發起連接
int accept(int sockfd, struct sockaddr *addr, socklen_t *addrlen);
5. read()
6. 小--大(小寫轉大寫,這實際上是要實現的功能)toupper()
7. write 給 客戶端
8. close();
上代碼吧:
#include <stdio.h>
#include <ctype.h>
#include <unistd.h>
#include <sys/types.h>
#include <arpa/inet.h>
#include <sys/socket.h>
#include <stdlib.h>
#define SERV_PORT 9527 //不能過大也不能過小
int main(void)
{
int sfd; //服務器的socket文件描述符
int cfd; //客戶端的socket文件描述符
struct sockaddr_in serv_addr; //服務器的地址結構體
struct sockaddr_in clie_addr; //客戶端的地址結構體
socklen_t clie_len; //客戶端的地址結構的大小
char buf[BUFSIZ]; //用於儲存客戶端發來的信息
//第一個參數是指定IPV4協議族,第二個參數是指定TCP協議,第三個參數是使用默認的協議,一般都是用0
sfd = socket(AF_INET, SOCK_STREAM, 0);//創建服務器的socket文件
//賦值服務器地址結構體
serv_addr.sin_family = AF_INET; //選擇協議族位IPV4
serv_addr.sin_port = htons(SERV_PORT); //綁定我們自定義的端口號9527
serv_addr.sin_addr.s_addr = htonl(INADDR_ANY); //監聽本地所有的IP地址;INADDR_ANY表示的是一個服務器上所有的網卡(服務器可能不止一個網卡)多個本地ip地址都進行綁定端口號,進行偵聽。
//第一個參數是服務器的socket文件描述符,第二個參數要強轉為sockaddr,原因后面會說;第三個參數是服務器地址結構體的大小
bind(sfd, (struct sockaddr*)&serv_addr, sizeof(serv_addr));//綁定服務器地址結構體
//服務器能夠同時接受多少個客戶端連接,默認128.
listen(sfd, 32);
//確定客戶端地址結構大小,用於accept函數使用
clie_len = sizeof(clie_addr);
//連接客戶端,返回一個新的socket文件描述符。第一個參數時服務器socket文件描述符,第二個時客戶端地址結構體,這里也要強轉,第三個是客戶端地址的大小,注意的是:第二個是傳出參數,第三個是傳入傳出參數
cfd = accept(sfd, (struct sockaddr*)&clie_addr, &clie_len);//第三個參數是指針,需要單獨用一個變量。不像socket函數那樣直接傳值
while (1)
{
int n = read(cfd, buf, sizeof(buf));//從客戶端讀
for (int i = 0; i < n; i++)
buf[i] = toupper(buf[i]);
write(cfd, buf, n);//寫到客戶端
}
//關閉文件描述符
close(sfd);
close(cfd);
}
我覺得我的注釋寫的很詳細了。主要是第一次接觸網絡這方面,啥都不懂。服務器是搞定了,但是客戶端呢?光有服務器貌似不能驗證服務器寫的對不對啊。沒事,我們先編譯運行這個服務器程序,然后新建一個終端,然后輸入nc 127.0.0.1 9527 回車。解釋一下這個命令,nc(netcat),在網絡工具中有"瑞士軍刀"美譽,其有Windows和Linux的版本。因為它短小精悍(1.84版本也不過25k,舊版本或縮減版甚至更小)、功能實用,被設計為一個簡單、可靠的網絡工具,可通過TCP或UDP協議傳輸讀寫數據。同時,它還是一個網絡應用Debug分析器,因為它可以根據需要創建各種不同類型的網絡連接。127.0.0.1是我們自己隨意的一個ip地址。可以不是這個,9527是哦我們子啊服務器中定義的端口,端口是進程在網絡中的唯一標識。必須一樣。然后看結果:
服務器程序運行后會阻塞,客戶端這邊也一樣。結果完美。