網絡協議 22 - RPC 協議（下）- 二進制類 RPC 協議

本文轉載自查看原文 2019-01-16 10:07 496 網絡協議

前面我們認識了兩個常用文本類的 RPC 協議，對於陌生人之間的溝通，用 NBA、CBA 這樣的縮略語，會使得協議約定非常不方便。

在講 CDN 和 DNS 的時候，我們講過接入層的設計，對於靜態資源或者動態資源靜態化的部分都可以做緩存。但是對於下單、支付等交易場景，還是需要調用 API。

對於微服務的架構，API 需要一個 API 網關統一的管理。API 網關有多種實現方式，用 Nginx 或者 OpenResty 結合 Lua 腳本是常用的方式。在上一節講過的 Spring Cloud 體系中，有個組件 Zuul 也是干這個的。

數據中心內部是如何相互調用的？

API 網關用來管理 API，但是 API 的實現一般在一個叫作Controller 層的地方。這一層對外提供 API。由於是讓陌生人訪問的，我們能看到目前業界主流的，基本都是 RESTful 的 API，是面向大規模互聯網應用的。

在 Controller 之內，就是咱們互聯網應用的業務邏輯實現。上節講 RESTful 的時候，說過業務邏輯的實現最好是無狀態的，從而可以橫向擴展，但是資源的狀態還需要服務端去維護。資源的狀態不應該維護在業務邏輯層，而是在最底層的持久化層，一般會使用分布式數據庫和 ElasticSearch。

這些服務端的狀態，例如訂單、庫存、商品等，都是重中之重，都需要持久化到硬盤上，數據不能丟，但是由於硬盤讀寫性能差，因而持久化層往往吞吐量不能達到互聯網應用要求的吞吐量，因而前面要有一層緩存層，使用 Redis 或者 memcached 將請求攔截一道，不能讓所有的請求都進入數據庫“中軍大營”。

緩存和持久化層之上一般是基礎服務層，這里面提供一些原子化的接口。例如，對於用戶、商品、訂單、庫存的增刪查改，將緩存和數據庫對再上層的業務邏輯屏蔽一道。有了這一層，上層業務邏輯看到的都是接口，而不會調用數據庫和緩存。因而對於緩存層的擴容，數據庫的分庫分表，所有的改變，都截止到這一層，這樣有利於將來對於緩存和數據庫的運維。

再往上就是組合層。因為基礎服務層只是提供簡單的接口，實現簡單的業務邏輯，而復雜的業務邏輯，比如下單，要扣優惠券，扣減庫存等，就要在組合服務層實現。

這樣，Controller 層、組合服務層、基礎服務層就會相互調用，這個調用是在數據中心內部的，量也會比較大，還是使用 RPC 的機制實現的。

由於服務比較多，需要一個單獨的注冊中心來做服務發現。服務提供方會將自己提供哪些服務注冊到注冊中心中去，同時服務消費方訂閱這個服務，從而可以對這個服務進行調用。

調用的時候有一個問題，這里的 RPC 調用，應該用二進制還是文本類？其實文本的最大問題是，占用字節數目比較多。比如數字 123，其實本來二進制 8 位就夠了，但是如果變成文本，就成了字符串 123。如果是 UTF-8 編碼的話，就是三個字節；如果是 UTF-16，就是六個字節。同樣的信息，要多費好多的空間，傳輸起來也更加占帶寬，時延也高。

因而對於數據中心內部的相互調用，很多公司選型的時候，還是希望采用更加省空間和帶寬的二進制的方案。

這里一個著名的例子就是 Dubbo 服務化框架二進制的 RPC 方式。

Dubbo 會在客戶端的本地啟動一個 Proxy，其實就是客戶端的 Stub，對於遠程的調用都通過這個 Stub 進行封裝。

接下來，Dubbo 會從注冊中心獲取服務端的列表，根據路由規則和負載均衡規則，在多個服務端中選擇一個最合適的服務端進行調用。

調用服務端的時候，首先要進行編碼和序列化，形成 Dubbo 頭和序列化的方法和參數。將編碼好的數據，交給網絡客戶端進行發送，網絡服務端收到消息后，進行解碼。然后將任務分發給某個線程進行處理，在線程中會調用服務端的代碼邏輯，然后返回結果。

這個過程和經典的 RPC 模式何其相似啊！

如何解決協議約定問題？

接下來我們還是來看 RPC 的三大問題，其中注冊發現問題已經通過注冊中心解決了。我們下面就來看協議約定問題。

Dubbo 中默認的 RPC 協議是 Hessian2。為了保證傳輸的效率，Hessian2 將遠程調用序列化為二進制進行傳輸，並且可以進行一定的壓縮。這個時候你可能會疑惑，同為二進制的序列化協議，Hessian2 和前面的二進制的 RPC 有什么區別呢？這不繞了一圈又回來了嗎？

Hessian2 是解決了一些問題的。例如，原來要定義一個協議文件，然后通過這個文件生成客戶端和服務端的 Stub，才能進行相互調用，這樣使得修改就會不方便。Hessian2 不需要定義這個協議文件，而是自描述的。什么是自描述呢？

所謂自描述就是，關於調用哪個函數，參數是什么，另一方不需要拿到某個協議文件、拿到二進制，靠它本身根據 Hessian2 的規則，就能解析出來。

原來有協議文件的場景，有點兒像兩個人事先約定好，0 表示方法 add，然后后面會傳兩個數。服務端把兩個數加起來，這樣一方發送 012，另一方知道是將 1 和 2 加起來，但是不知道協議文件的，當它收到 012 的時候，完全不知道代表什么意思。

而自描述的場景，就像兩個人說的每句話都帶前因后果。例如，傳遞的是“函數：add，第一個參數 1，第二個參數 2”。這樣無論誰拿到這個表述，都知道是什么意思。但是只不過都是以二進制的形式編碼的。這其實相當於綜合了 XML 和二進制共同優勢的一個協議。

Hessian2 是如何做到這一點的呢？這就需要去看 Hessian2 的序列化的語法描述文件。

看起來很復雜，編譯原理里面是有這樣的語法規則的。

我們從 Top 看起，下一層是 value，直到形成一棵樹。這里面的有個思想，為了防止歧義，每一個類型的起始數字都設置成為獨一無二的。這樣，解析的時候，看到這個數字，就知道后面跟的是什么了。

這里還是以加法為例子，“add(2,3)”被序列化之后是什么樣的呢？

H x02 x00     # Hessian 2.0
C          # RPC call
 x03 add     # method "add"
 x92        # two arguments
 x92        # 2 - argument 1
 x93        # 3 - argument 2

H 開頭，表示使用的協議是 Hession，H 的二進制是 0x48
C 開頭，表示這是一個 RPC 調用
0x03，表示方法名是三個字符
0x92，表示有兩個參數。其實這里存的應該是 2，之所以加上 0x90，就是為了防止歧義，表示這里一定是一個 int
第一個參數是 2，編碼為 0x92，第二個參數是 3，編碼為 0x93

這個就叫作自描述。

另外，Hessian2 是面向對象的，可以傳輸一個對象。

class Car {
 String color;
 String model;
}
out.writeObject(new Car("red", "corvette"));
out.writeObject(new Car("green", "civic"));
---
C            # object definition (#0)
 x0b example.Car    # type is example.Car
 x92          # two fields
 x05 color       # color field name
 x05 model       # model field name

O            # object def (long form)
 x90          # object definition #0
 x03 red        # color field value
 x08 corvette      # model field value

x60           # object def #0 (short form)
 x05 green       # color field value
 x05 civic       # model field value

首先，定義這個類。對於類型的定義也傳過去，因而也是自描述的。類名為 example.Car，字符長 11 位，因而前面長度為 0x0b。有兩個成員變量，一個是 color，一個是 model，字符長 5 位，因而前面長度 0x05,。

然后，傳輸的對象引用這個類。由於類定義在位置 0，因而對象會指向這個位置 0，編碼為 0x90。后面 red 和 corvette 是兩個成員變量的值，字符長分別為 3 和 8。

接着又傳輸一個屬於相同類的對象。這時候就不保存對於類的引用了，只保存一個 0x60，表示同上就可以了。

可以看出，Hessian2 真的是能壓縮盡量壓縮，多一個 Byte 都不傳。

如何解決 RPC 傳輸問題？

接下來，我們再來看 Dubbo 的 RPC 傳輸問題。前面我們也說了，基於 Socket 實現一個高性能的服務端，是很復雜的一件事情，在 Dubbo 里面，使用了 Netty 的網絡傳輸框架。

Netty 是一個非阻塞的基於事件的網絡傳輸框架，在服務端啟動的時候，會監聽一個端口，並注冊以下的事件。

連接事件：當收到客戶端的連接事件時，會調用 void connected(Channel channel) 方法
當可寫事件觸發時，會調用 void sent(Channel channel, Object message)，服務端向客戶端返回響應數據
當可讀事件觸發時，會調用 void received(Channel channel, Object message) ，服務端在收到客戶端的請求數據
當發生異常時，會調用 void caught(Channel channel, Throwable exception)

當事件觸發之后，服務端在這些函數中的邏輯，可以選擇直接在這個函數里面進行操作，還是將請求分發到線程池去處理。一般異步的數據讀寫都需要另外的線程池參與，在線程池中會調用真正的服務端業務代碼邏輯，返回結果。

Hessian2 是 Dubbo 默認的 RPC 序列化方式，當然還有其他選擇。例如，Dubbox 從 Spark 那里借鑒 Kryo，實現高性能的序列化。

到這里，我們說了數據中心里面的相互調用。為了高性能，大家都願意用二進制，但是為什么后期 Spring Cloud 又興起了呢？這是因為，並發量越來越大，已經到了微服務的階段。同原來的 SOA 不同，微服務粒度更細，模塊之間的關系更加復雜。

在上面的架構中，如果使用二進制的方式進行序列化，雖然不用協議文件來生成 Stub，但是對於接口的定義，以及傳的對象 DTO，還是需要共享 JAR。因為只有客戶端和服務端都有這個 JAR，才能成功地序列化和反序列化。

但當關系復雜的時候，JAR 的依賴也變得異常復雜，難以維護，而且如果在 DTO 里加一個字段，雙方的 JAR 沒有匹配好，也會導致序列化不成功，而且還有可能循環依賴。這個時候，一般有兩種選擇。

第一種，建立嚴格的項目管理流程。

不允許循環調用，不允許跨層調用，只准上層調用下層，不允許下層調用上層
接口要保持兼容性，不兼容的接口新添加而非改原來的，當接口通過監控，發現不用的時候，再下掉
升級的時候，先升級服務提供端，再升級服務消費端。

第二種，改用 RESTful 的方式。

使用 Spring Cloud，消費端和提供端不用共享 JAR，各聲明各的，只要能變成 JSON 就行，而且 JSON 也是比較靈活的
使用 RESTful 的方式，性能會降低，所以需要通過橫向擴展來抵消單機的性能損耗

小結

RESTful API 對於接入層和 Controller 層之外的調用，已基本形成事實標准，但是隨着內部服務之間的調用越來越多，性能也越來越重要，於是 Dubbo 的 RPC 框架有了用武之地
Dubbo 通過注冊中心解決服務發現問題，通過 Hessian2 序列化解決協議約定的問題，通過 Netty 解決網絡傳輸的問題
在更加復雜的微服務場景下，Spring Cloud 的 RESTful 方式在內部調用也會被考慮，主要是 JAR 包的依賴和管理問題

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 RPC協議什么是RPC協議？RPC協議與HTTP協議的區別二進制協議與文本協議理解rpc協議，為什么使用rpc RPC協議、http協議、https協議的區別 RPC和http協議的區別 thrift 是rpc協議 Thrift的TBinaryProtocol二進制協議分析 RPC和http協議的區別 TCP、HTTP協議的RPC