TCP/IP簡介
雖然大家現在對互聯網很熟悉,但是計算機網絡的出現比互聯網要早很多。
計算機為了聯網,就必須規定通信協議,早期的計算機網絡,都是由各廠商自己規定一套協議,IBM、Apple和Microsoft都有各自的網絡協議,互不兼容,這就好比一群人有的說英語,有的說中文,有的說德語,說同一種語言的人可以交流,不同的語言之間就不行了。
為了把全世界的所有不同類型的計算機都連接起來,就必須規定一套全球通用的協議,為了實現互聯網這個目標,互聯網協議簇(Internet Protocol Suite)就是通用協議標准。Internet是由inter和net兩個單詞組合起來的,原意就是連接“網絡”的網絡,有了Internet,任何私有網絡,只要支持這個協議,就可以聯入互聯網。
因為互聯網協議包含了上百種協議標准,但是最重要的兩個協議是TCP和IP協議,所以,大家把互聯網的協議簡稱TCP/IP協議。
通信的時候,雙方必須知道對方的標識,好比發郵件必須知道對方的郵件地址。互聯網上每個計算機的唯一標識就是IP地址,類似123.123.123.123。如果一台計算機同時接入到兩個或更多的網絡,比如路由器,它就會有兩個或多個IP地址,所以,IP地址對應的實際上是計算機的網絡接口,通常是網卡。
IP協議負責把數據從一台計算機通過網絡發送到另一台計算機。數據被分割成一小塊一小塊,然后通過IP包發送出去。由於互聯網鏈路復雜,兩台計算機之間經常有多條線路,因此,路由器就負責決定如何把一個IP包轉發出去。IP包的特點是按塊發送,途徑多個路由,但不保證能到達,也不保證順序到達。

TCP協議則是建立在IP協議之上的。TCP協議負責在兩台計算機之間建立可靠連接,保證數據包按順序到達。TCP協議會通過握手建立連接,然后,對每個IP包編號,確保對方按順序收到,如果包丟掉了,就自動重發。
許多常用的更高級的協議都是建立在TCP協議基礎上的,比如用於瀏覽器的HTTP協議、發送郵件的SMTP協議等。
一個IP包除了包含要傳輸的數據外,還包含源IP地址和目標IP地址,源端口和目標端口。
端口有什么作用?在兩台計算機通信時,只發IP地址是不夠的,因為同一台計算機上跑着多個網絡程序。一個IP包來了之后,到底是交給瀏覽器還是QQ,就需要端口號來區分。每個網絡程序都向操作系統申請唯一的端口號,這樣,兩個進程在兩台計算機之間建立網絡連接就需要各自的IP地址和各自的端口號。
一個進程也可能同時與多個計算機建立鏈接,因此它會申請很多端口。
了解了TCP/IP協議的基本概念,IP地址和端口的概念,我們就可以開始進行網絡編程了。
Python3 網絡編程
Python 提供了兩個級別訪問的網絡服務。:
- 低級別的網絡服務支持基本的 Socket,它提供了標准的 BSD Sockets API,可以訪問底層操作系統Socket接口的全部方法。
- 高級別的網絡服務模塊 SocketServer, 它提供了服務器中心類,可以簡化網絡服務器的開發。
什么是 Socket?
Socket又稱"套接字",應用程序通常通過"套接字"向網絡發出請求或者應答網絡請求,使主機間或者一台計算機上的進程間可以通訊。
socket()函數
Python 中,我們用 socket()函數來創建套接字,語法格式如下:
socket.socket([family[, type[, proto]]])
參數
- family: 套接字家族可以使AF_UNIX或者AF_INET
- type: 套接字類型可以根據是面向連接的還是非連接分為
SOCK_STREAM或SOCK_DGRAM - protocol: 一般不填默認為0.
Socket 對象(內建)方法
| 函數 | 描述 |
|---|---|
| 服務器端套接字 | |
| s.bind() | 綁定地址(host,port)到套接字, 在AF_INET下,以元組(host,port)的形式表示地址。 |
| s.listen() | 開始TCP監聽。backlog指定在拒絕連接之前,操作系統可以掛起的最大連接數量。該值至少為1,大部分應用程序設為5就可以了。 |
| s.accept() | 被動接受TCP客戶端連接,(阻塞式)等待連接的到來 |
| 客戶端套接字 | |
| s.connect() | 主動初始化TCP服務器連接,。一般address的格式為元組(hostname,port),如果連接出錯,返回socket.error錯誤。 |
| s.connect_ex() | connect()函數的擴展版本,出錯時返回出錯碼,而不是拋出異常 |
| 公共用途的套接字函數 | |
| s.recv() | 接收TCP數據,數據以字符串形式返回,bufsize指定要接收的最大數據量。flag提供有關消息的其他信息,通常可以忽略。 |
| s.send() | 發送TCP數據,將string中的數據發送到連接的套接字。返回值是要發送的字節數量,該數量可能小於string的字節大小。 |
| s.sendall() | 完整發送TCP數據,完整發送TCP數據。將string中的數據發送到連接的套接字,但在返回之前會嘗試發送所有數據。成功返回None,失敗則拋出異常。 |
| s.recvform() | 接收UDP數據,與recv()類似,但返回值是(data,address)。其中data是包含接收數據的字符串,address是發送數據的套接字地址。 |
| s.sendto() | 發送UDP數據,將數據發送到套接字,address是形式為(ipaddr,port)的元組,指定遠程地址。返回值是發送的字節數。 |
| s.close() | 關閉套接字 |
| s.getpeername() | 返回連接套接字的遠程地址。返回值通常是元組(ipaddr,port)。 |
| s.getsockname() | 返回套接字自己的地址。通常是一個元組(ipaddr,port) |
| s.setsockopt(level,optname,value) | 設置給定套接字選項的值。 |
| s.getsockopt(level,optname[.buflen]) | 返回套接字選項的值。 |
| s.settimeout(timeout) | 設置套接字操作的超時期,timeout是一個浮點數,單位是秒。值為None表示沒有超時期。一般,超時期應該在剛創建套接字時設置,因為它們可能用於連接的操作(如connect()) |
| s.gettimeout() | 返回當前超時期的值,單位是秒,如果沒有設置超時期,則返回None。 |
| s.fileno() | 返回套接字的文件描述符。 |
| s.setblocking(flag) | 如果flag為0,則將套接字設為非阻塞模式,否則將套接字設為阻塞模式(默認值)。非阻塞模式下,如果調用recv()沒有發現任何數據,或send()調用無法立即發送數據,那么將引起socket.error異常。 |
| s.makefile() | 創建一個與該套接字相關連的文件 |
簡單實例
服務端
我們使用 socket 模塊的 socket 函數來創建一個 socket 對象。socket 對象可以通過調用其他函數來設置一個 socket 服務。
現在我們可以通過調用 bind(hostname, port) 函數來指定服務的 port(端口)。
接着,我們調用 socket 對象的 accept 方法。該方法等待客戶端的連接,並返回 connection 對象,表示已連接到客戶端。
完整代碼如下:
#!/usr/bin/python3
# 文件名:server.py
# 導入 socket、sys 模塊
import socket
import sys
# 創建 socket 對象
serversocket = socket.socket(
socket.AF_INET, socket.SOCK_STREAM)
# 獲取本地主機名
host = socket.gethostname()
port = 9999
# 綁定端口
serversocket.bind((host, port))
# 設置最大連接數,超過后排隊
serversocket.listen(5)
while True:
# 建立客戶端連接
clientsocket,addr = serversocket.accept()
print("連接地址: %s" % str(addr))
msg='歡迎訪問菜鳥教程!'+ "\r\n"
clientsocket.send(msg.encode('utf-8'))
clientsocket.close()
客戶端
接下來我們寫一個簡單的客戶端實例連接到以上創建的服務。端口號為 12345。
socket.connect(hosname, port ) 方法打開一個 TCP 連接到主機為 hostname 端口為 port 的服務商。連接后我們就可以從服務端后期數據,記住,操作完成后需要關閉連接。
完整代碼如下:
#!/usr/bin/python3
# 文件名:client.py
# 導入 socket、sys 模塊
import socket
import sys
# 創建 socket 對象
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
# 獲取本地主機名
host = socket.gethostname()
# 設置端口好
port = 9999
# 連接服務,指定主機和端口
s.connect((host, port))
# 接收小於 1024 字節的數據
msg = s.recv(1024)
s.close()
print (msg.decode('utf-8'))
現在我們打開兩個終端,第一個終端執行 server.py 文件:
$ python3 server.py
第二個終端執行 client.py 文件:
$ python3 client.py 歡迎訪問菜鳥教程!
這是我們再打開第一個終端,就會看到有以下信息輸出:
連接地址: ('192.168.0.118', 33397)
Python Internet 模塊
以下列出了 Python 網絡編程的一些重要模塊:
| 協議 | 功能用處 | 端口號 | Python 模塊 |
|---|---|---|---|
| HTTP | 網頁訪問 | 80 | httplib, urllib, xmlrpclib |
| NNTP | 閱讀和張貼新聞文章,俗稱為"帖子" | 119 | nntplib |
| FTP | 文件傳輸 | 20 | ftplib, urllib |
| SMTP | 發送郵件 | 25 | smtplib |
| POP3 | 接收郵件 | 110 | poplib |
| IMAP4 | 獲取郵件 | 143 | imaplib |
| Telnet | 命令行 | 23 | telnetlib |
| Gopher | 信息查找 | 70 | gopherlib, urllib |
TCP編程
Socket是網絡編程的一個抽象概念。通常我們用一個Socket表示“打開了一個網絡鏈接”,而打開一個Socket需要知道目標計算機的IP地址和端口號,再指定協議類型即可。
客戶端
大多數連接都是可靠的TCP連接。創建TCP連接時,主動發起連接的叫客戶端,被動響應連接的叫服務器。
舉個例子,當我們在瀏覽器中訪問新浪時,我們自己的計算機就是客戶端,瀏覽器會主動向新浪的服務器發起連接。如果一切順利,新浪的服務器接受了我們的連接,一個TCP連接就建立起來的,后面的通信就是發送網頁內容了。
所以,我們要創建一個基於TCP連接的Socket,可以這樣做:
# 導入socket庫:
import socket
# 創建一個socket:
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
# 建立連接:
s.connect(('www.sina.com.cn', 80))
創建Socket時,AF_INET指定使用IPv4協議,如果要用更先進的IPv6,就指定為AF_INET6。SOCK_STREAM指定使用面向流的TCP協議,這樣,一個Socket對象就創建成功,但是還沒有建立連接。
客戶端要主動發起TCP連接,必須知道服務器的IP地址和端口號。新浪網站的IP地址可以用域名www.sina.com.cn自動轉換到IP地址,但是怎么知道新浪服務器的端口號呢?
答案是作為服務器,提供什么樣的服務,端口號就必須固定下來。由於我們想要訪問網頁,因此新浪提供網頁服務的服務器必須把端口號固定在80端口,因為80端口是Web服務的標准端口。其他服務都有對應的標准端口號,例如SMTP服務是25端口,FTP服務是21端口,等等。端口號小於1024的是Internet標准服務的端口,端口號大於1024的,可以任意使用。
因此,我們連接新浪服務器的代碼如下:
s.connect(('www.sina.com.cn', 80))
注意參數是一個tuple,包含地址和端口號。
建立TCP連接后,我們就可以向新浪服務器發送請求,要求返回首頁的內容:
# 發送數據:
s.send('GET / HTTP/1.1\r\nHost: www.sina.com.cn\r\nConnection: close\r\n\r\n')
TCP連接創建的是雙向通道,雙方都可以同時給對方發數據。但是誰先發誰后發,怎么協調,要根據具體的協議來決定。例如,HTTP協議規定客戶端必須先發請求給服務器,服務器收到后才發數據給客戶端。
發送的文本格式必須符合HTTP標准,如果格式沒問題,接下來就可以接收新浪服務器返回的數據了:
# 接收數據:
buffer = []
while True:
# 每次最多接收1k字節:
d = s.recv(1024)
if d:
buffer.append(d)
else:
break
data = ''.join(buffer)
接收數據時,調用recv(max)方法,一次最多接收指定的字節數,因此,在一個while循環中反復接收,直到recv()返回空數據,表示接收完畢,退出循環。
當我們接收完數據后,調用close()方法關閉Socket,這樣,一次完整的網絡通信就結束了:
# 關閉連接: s.close()
接收到的數據包括HTTP頭和網頁本身,我們只需要把HTTP頭和網頁分離一下,把HTTP頭打印出來,網頁內容保存到文件:
header, html = data.split('\r\n\r\n', 1)
print header
# 把接收的數據寫入文件:
with open('sina.html', 'wb') as f:
f.write(html)
現在,只需要在瀏覽器中打開這個sina.html文件,就可以看到新浪的首頁了。
服務器
和客戶端編程相比,服務器編程就要復雜一些。
服務器進程首先要綁定一個端口並監聽來自其他客戶端的連接。如果某個客戶端連接過來了,服務器就與該客戶端建立Socket連接,隨后的通信就靠這個Socket連接了。
所以,服務器會打開固定端口(比如80)監聽,每來一個客戶端連接,就創建該Socket連接。由於服務器會有大量來自客戶端的連接,所以,服務器要能夠區分一個Socket連接是和哪個客戶端綁定的。一個Socket依賴4項:服務器地址、服務器端口、客戶端地址、客戶端端口來唯一確定一個Socket。
但是服務器還需要同時響應多個客戶端的請求,所以,每個連接都需要一個新的進程或者新的線程來處理,否則,服務器一次就只能服務一個客戶端了。
我們來編寫一個簡單的服務器程序,它接收客戶端連接,把客戶端發過來的字符串加上Hello再發回去。
首先,創建一個基於IPv4和TCP協議的Socket:
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
然后,我們要綁定監聽的地址和端口。服務器可能有多塊網卡,可以綁定到某一塊網卡的IP地址上,也可以用0.0.0.0綁定到所有的網絡地址,還可以用127.0.0.1綁定到本機地址。127.0.0.1是一個特殊的IP地址,表示本機地址,如果綁定到這個地址,客戶端必須同時在本機運行才能連接,也就是說,外部的計算機無法連接進來。
端口號需要預先指定。因為我們寫的這個服務不是標准服務,所以用9999這個端口號。請注意,小於1024的端口號必須要有管理員權限才能綁定:
# 監聽端口:
s.bind(('127.0.0.1', 9999))
緊接着,調用listen()方法開始監聽端口,傳入的參數指定等待連接的最大數量:
s.listen(5) print 'Waiting for connection...'
接下來,服務器程序通過一個永久循環來接受來自客戶端的連接,accept()會等待並返回一個客戶端的連接:
while True:
# 接受一個新連接:
sock, addr = s.accept()
# 創建新線程來處理TCP連接:
t = threading.Thread(target=tcplink, args=(sock, addr))
t.start()
每個連接都必須創建新線程(或進程)來處理,否則,單線程在處理連接的過程中,無法接受其他客戶端的連接:
def tcplink(sock, addr):
print 'Accept new connection from %s:%s...' % addr
sock.send('Welcome!')
while True:
data = sock.recv(1024)
time.sleep(1)
if data == 'exit' or not data:
break
sock.send('Hello, %s!' % data)
sock.close()
print 'Connection from %s:%s closed.' % addr
連接建立后,服務器首先發一條歡迎消息,然后等待客戶端數據,並加上Hello再發送給客戶端。如果客戶端發送了exit字符串,就直接關閉連接。
要測試這個服務器程序,我們還需要編寫一個客戶端程序:
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
# 建立連接:
s.connect(('127.0.0.1', 9999))
# 接收歡迎消息:
print s.recv(1024)
for data in ['Michael', 'Tracy', 'Sarah']:
# 發送數據:
s.send(data)
print s.recv(1024)
s.send('exit')
s.close()
我們需要打開兩個命令行窗口,一個運行服務器程序,另一個運行客戶端程序,就可以看到效果了:

需要注意的是,客戶端程序運行完畢就退出了,而服務器程序會永遠運行下去,必須按Ctrl+C退出程序。
小結
用TCP協議進行Socket編程在Python中十分簡單,對於客戶端,要主動連接服務器的IP和指定端口,對於服務器,要首先監聽指定端口,然后,對每一個新的連接,創建一個線程或進程來處理。通常,服務器程序會無限運行下去。
同一個端口,被一個Socket綁定了以后,就不能被別的Socket綁定了。
UDP編程
TCP是建立可靠連接,並且通信雙方都可以以流的形式發送數據。相對TCP,UDP則是面向無連接的協議。
使用UDP協議時,不需要建立連接,只需要知道對方的IP地址和端口號,就可以直接發數據包。但是,能不能到達就不知道了。
雖然用UDP傳輸數據不可靠,但它的優點是和TCP比,速度快,對於不要求可靠到達的數據,就可以使用UDP協議。
我們來看看如何通過UDP協議傳輸數據。和TCP類似,使用UDP的通信雙方也分為客戶端和服務器。服務器首先需要綁定端口:
s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
# 綁定端口:
s.bind(('127.0.0.1', 9999))
創建Socket時,SOCK_DGRAM指定了這個Socket的類型是UDP。綁定端口和TCP一樣,但是不需要調用listen()方法,而是直接接收來自任何客戶端的數據:
print 'Bind UDP on 9999...'
while True:
# 接收數據:
data, addr = s.recvfrom(1024)
print 'Received from %s:%s.' % addr
s.sendto('Hello, %s!' % data, addr)
recvfrom()方法返回數據和客戶端的地址與端口,這樣,服務器收到數據后,直接調用sendto()就可以把數據用UDP發給客戶端。
注意這里省掉了多線程,因為這個例子很簡單。
客戶端使用UDP時,首先仍然創建基於UDP的Socket,然后,不需要調用connect(),直接通過sendto()給服務器發數據:
s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
for data in ['Michael', 'Tracy', 'Sarah']:
# 發送數據:
s.sendto(data, ('127.0.0.1', 9999))
# 接收數據:
print s.recv(1024)
s.close()
從服務器接收數據仍然調用recv()方法。
仍然用兩個命令行分別啟動服務器和客戶端測試,結果如下:

小結
UDP的使用與TCP類似,但是不需要建立連接。此外,服務器綁定UDP端口和TCP端口互不沖突,也就是說,UDP的9999端口與TCP的9999端口可以各自綁定。
源碼參考:https://github.com/michaelliao/learn-python/tree/master/socket
